本論文では、単一の入力画像から複雑な3Dシーンを再構築する一般化可能なフレームワークを提案する。従来の手法は、限定的なオブジェクトクラスや3D監督データに依存していたが、本手法は個別のコンポーネントを組み合わせることで、そうした制約を克服する。
まず、入力画像を包括的に分析し、カメラパラメータ、深度マップ、セマンティックセグメンテーションを推定する。次に、個別のオブジェクトを抽出し、遮蔽された部分を補完する。各オブジェクトを個別に3D再構築し、深度マップを用いて入力シーンに配置する。最後に、背景領域を近似的に再構築する。
本手法は、合成および実世界のデータセットで優れた定量的・定性的な性能を示す。従来手法と比較して、より一般化性が高く、複雑な3Dシーンを高品質に再構築できる。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Andr... lúc arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03421.pdfYêu cầu sâu hơn