本論文では、単一のRGB入力画像から3次元推定を行う手法「MVD-Fusion」を提案している。従来の3次元推定手法は、体積、ポイントクラウド、メッシュなどの3次元表現を直接予測するが、未観測領域の推定が困難であった。一方、最近のジェネレーティブモデルベースの手法は、入力画像から複数のビューを生成することで3次元情報を得ようとしているが、生成されたビューの間で整合性が取れていないという問題があった。
MVD-Fusionでは、入力画像から深度情報を同時に推定し、それを用いてビュー間の整合性を保つことで、より正確な3次元推定を実現している。具体的には、ノイズの入った深度マップを用いて、ビューの間の再投影を行うことで、ビューの整合性を担保している。また、大規模合成データセットObjaverseと実世界データセットCO3Dを用いて学習を行い、従来手法と比較して優れた性能を示している。特に、生成されたビューの整合性が高く、かつ入力画像との整合性も良好であることが確認できる。さらに、生成された深度マップから直接的に3次元点群を得ることができ、従来の最適化ベースの手法と比較しても優れた3次元再構築精度を達成している。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Hanzhe Hu,Zh... lúc arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03656.pdfYêu cầu sâu hơn