Core Concepts
本論文は、相対位置推定のためのエンドツーエンドのディープラーニングベースの手法を提案する。画像マッチングを事前学習タスクとして活用し、特徴マップの歪みを利用して相対位置と姿勢を推定する。
Abstract
本論文は、2つの画像から相対的なカメラの位置と姿勢を推定する新しいエンドツーエンドのディープラーニングベースの手法を提案する。
提案手法は以下の3つのモジュールから構成される:
特徴抽出: LoFTRアーキテクチャを使用して、2つの入力画像からセミデンスの特徴マップを生成する。
マッチングと歪み: 2つの特徴マップ間の最も類似した特徴をマッチングし、一方の特徴マップを他方にワープする。
姿勢推定: ワープされた特徴マップから、相対的な位置と姿勢を回帰する。
提案手法の主な特徴は以下の通り:
画像マッチングを事前学習タスクとして活用し、相対位置推定のための効果的な特徴表現を得る。
位置の方向と大きさを別々の損失関数項で扱うことで、より正確な推定を実現する。
ハードなマッチングとワーピングを使用し、従来のソフトなアプローチよりも優れた性能を示す。
様々なデータセットで高い汎化性能を示す。
提案手法は、従来の特徴マッチングベースの手法と比べて、精度の向上と推論時間の短縮の両立を実現している。
Stats
位置誤差の平均は約11cm、位置角度誤差の平均は約3.4度、姿勢角度誤差の平均は約3.4度である。
位置誤差の中央値は約15cm、位置角度誤差の中央値は約11.1度、姿勢角度誤差の中央値は約3.4度である。
Quotes
"我々の手法は、従来の特徴マッチングベースの手法と比べて、精度の向上と推論時間の短縮の両立を実現している。"
"提案手法は、様々なデータセットで高い汎化性能を示す。"