核心概念
単一の参照画像から、物体の新しい画像における相対3D姿勢を効率的かつ頑健に推定する手法を提案する。
要約
本研究では、物体の3Dモデルや複数の参照画像を必要とせずに、単一の参照画像から物体の相対3D姿勢を推定する新しい手法を提案している。
まず、U-Netアーキテクチャを用いて、参照画像と目標姿勢から物体の平均的な外観を予測するエンコーダを学習する。この予測された外観を「テンプレート」として扱い、クエリ画像との類似度を計算することで、物体の相対姿勢を推定する。
この手法には以下の特徴がある:
3Dモデルや複数の参照画像を必要としない
新しいカテゴリの物体にも適用可能
部分的な遮蔽に対して頑健
物体の対称性による姿勢の曖昧性を検出可能
実験では、合成データセットおよび実世界データセットTLESSで、従来手法を大きく上回る精度を示している。特に、見知らぬカテゴリの物体に対する一般化性能が高い。
統計
単一の参照画像から、物体の新しい視点における外観を平均的に予測することができる。
予測された外観と入力クエリ画像の類似度から、物体の相対姿勢を推定できる。
物体の対称性による姿勢の曖昧性を検出できる。
部分的な遮蔽に対しても頑健な姿勢推定が可能である。