Core Concepts
大規模な画像コレクションから、カメラの姿勢と3Dシーン構造を同時に回復するための、アウトライアを処理できるロバストな深層学習ベースのアプローチ。
Abstract
本研究は、マルチビュー構造からの運動(SfM)の問題に取り組んでいます。SfMは、大規模な画像コレクションから、カメラの姿勢と3Dシーン構造を同時に回復する重要な課題です。従来のSfM手法は、特徴点の抽出と照合に依存していますが、これらの処理にはアウトライアが含まれることが多く、正確な再構築を阻害します。
提案手法は、等変量ニューラルネットワークアーキテクチャを拡張することで、アウトライアを処理できるロバストなアプローチを実現しています。具体的には、入力の点追跡データからアウトライアを識別するモジュールを追加し、最終的な束調整ステップをロバスト化しています。
実験では、大規模な画像コレクションを含む複数のデータセットで評価を行い、従来手法と比較して高精度な姿勢推定と3D構造の回復を実現できることを示しています。特に、アウトライアを多く含む現実的な設定でも良好な性能を発揮しています。
Stats
画像数が1000枚未満のシーンでは、提案手法の平均再投影誤差は0.6ピクセル未満
画像数が1000枚以上のシーンでは、提案手法の平均再投影誤差は1.1ピクセル未満
提案手法の平均カメラ位置誤差は0.4メートル未満
提案手法の平均カメラ姿勢誤差は0.7度未満
Quotes
"大規模な画像コレクションから、カメラの姿勢と3Dシーン構造を同時に回復するのは重要な課題である。"
"従来のSfM手法は特徴点の抽出と照合に依存しているが、これらの処理にはアウトライアが含まれることが多く、正確な再構築を阻害する。"
"提案手法は等変量ニューラルネットワークアーキテクチャを拡張することで、アウトライアを処理できるロバストなアプローチを実現している。"