核心概念
多数の入力画像を活用することで、3D物体の形状と質感を精度良く再構築できる。
要約
本論文では、任意の数の入力画像から3D物体の形状と質感を再構築するシステムSAP3Dを提案している。
まず、事前に学習した2D生成モデルと粗い相対カメラ姿勢推定モデルを用いて初期化を行う。次に、入力画像に合わせてこれらのモデルをテスト時に最適化することで、物体特有の3Dプライオリを獲得する。
最適化されたモデルを用いて、3D再構築と新規ビューの生成を行う。実験の結果、入力画像数が増えるにつれて3D再構築の精度が向上することが示された。これは、人間が複数の2D画像から3D理解を深めていくのと同様の振る舞いを示している。
提案手法の各コンポーネントに対する ablation study からも、事前学習モデルの活用とテスト時の最適化が重要であることが確認された。
統計
入力画像数が増えるにつれて、3D再構築の幾何学的精度(Chamfer Distance、F1スコア、VolumeIoU)と外観の精度(PSNR、SSIM、LPIPS)が向上する。
相対カメラ姿勢の推定精度も、入力画像数の増加に伴って向上する。
引用
"人間は2D画像から過去の経験に基づいて3D構造を推測し、より多くの画像を見ることで3D理解を深めていく。"
"提案手法SAP3Dは、任意の数の入力画像から3D再構築と新規ビューの生成を行う。"