Core Concepts
本手法は、単眼ビデオから複雑な動的な3Dシーンを生成する初めての手法である。オブジェクトの分割、追跡、3D表現の最適化、そして最終的な統合を通して、大きな動きや遮蔽を伴う多オブジェクトシーンを生成することができる。
Abstract
本論文では、DreamScene4Dと呼ばれる新しいアプローチを提案している。これは単眼ビデオから複雑な動的な3Dシーンを生成する初めての手法である。
まず、オブジェクトトラッカーとアダプティブな画像拡散モデルを使ってビデオシーンを分解し、オブジェクトと背景を分割・追跡・補完する。次に、3つの要素(オブジェクト中心の変形、オブジェクト中心から世界座標への変換、カメラ運動)に運動を分解し、それぞれを最適化することで安定した動的な3Dシーンを生成する。最後に、予測された深度情報を使ってオブジェクトを統合し、最終的な4Dシーンを構築する。
提案手法は、DAVIS、Kubric、自作ビデオなどの複雑な多オブジェクトシーンで良好な結果を示した。特に、オクルージョンや大きな動きがある場合でも安定した4Dシーンを生成できることが特徴である。また、生成された3D Gaussianの動きを2Dトラッキングに活用できることも示された。
Stats
単眼ビデオから複雑な動的3Dシーンを生成できる
オクルージョンや大きな動きがある場合でも安定した4Dシーンを生成できる
生成された3D Gaussianの動きを2Dトラッキングに活用できる