Główne pojęcia
提案手法は、事前学習された3次元オブジェクト表現の潜在空間を最適化することで、入力画像中のオブジェクトインスタンスを最適に表現する逆レンダリングアプローチを用いて、単眼カメラからの3次元多物体追跡を行う。
Streszczenie
本論文は、単眼カメラからの3次元多物体追跡を、事前学習された3次元オブジェクト表現の潜在空間を最適化する逆レンダリングアプローチとして再定式化している。
まず、オブジェクトの形状、質感、位置、姿勢を表現する潜在ベクトルを初期化する。次に、これらの潜在ベクトルを最適化することで、入力画像中のオブジェクトインスタンスを最適に表現するレンダリング結果を得る。この最適化過程では、ピクセル単位の画像誤差と知覚的類似性を考慮する。
最適化されたオブジェクト表現は、オブジェクトの位置、姿勢、形状、質感の情報を含んでおり、これらを用いて多物体追跡を行う。具体的には、最適化されたオブジェクト表現を用いて、過去のトラックレットとの照合を行い、新規オブジェクトの追加や既存トラックレットの更新を行う。
提案手法は、合成データのみで事前学習を行っているにもかかわらず、実世界の自動運転データセットであるnuScenes、Waymoデータセットでも良好な一般化性能を示す。また、最適化過程で得られるレンダリング結果を可視化することで、追跡結果の解釈性も高い。
Statystyki
提案手法は、単眼カメラからの3次元多物体追跡を、事前学習された3次元オブジェクト表現の潜在空間を最適化する逆レンダリングアプローチとして定式化している。
合成データのみで事前学習を行っているにもかかわらず、実世界の自動運転データセットであるnuScenes、Waymoデータセットでも良好な一般化性能を示す。
最適化過程で得られるレンダリング結果を可視化することで、追跡結果の解釈性も高い。