核心概念
最近の3D生成の進歩は、インターネット規模の画像データで事前訓練された3D対応画像拡散モデルの改善によって推進されてきました。しかし、同期した多視点ビデオデータが不足しているため、この手法を4D生成に直接適用することは実用的ではありません。そこで本研究では、ビデオ拡散モデルと多視点拡散モデルを組み合わせることで、効率的に4Dコンテンツを生成する新しい枠組みを提案しています。
要約
本研究は、動的3Dコンテンツ生成のための新しい枠組み「Diffusion2」を提案しています。
まず、ビデオ拡散モデルと多視点拡散モデルを別々に訓練します。ビデオ拡散モデルは動きと時間的な滑らかさの情報を、多視点拡散モデルは幾何学的な整合性の情報を学習します。
次に、これらの2つの拡散モデルを組み合わせて、多視点かつ多フレームの画像配列を直接生成します。具体的には、各画像の行と列が条件的に独立であるという仮定に基づき、2つの拡散モデルの推定スコアを畳み込むことで、効率的に画像配列を生成できます。
最後に、生成された画像配列を4D再構築パイプラインに入力することで、高品質な4Dコンテンツを効率的に生成できます。
提案手法は、単一の入力画像、単一視点ビデオ、静的3Dモデルなど、様々な入力条件に柔軟に対応できます。実験結果から、提案手法は既存手法と比べて高品質な4Dコンテンツを短時間で生成できることが示されています。
統計
提案手法は、ビデオ拡散モデルと多視点拡散モデルを組み合わせることで、効率的に4Dコンテンツを生成できる。
提案手法は、単一の入力画像、単一視点ビデオ、静的3Dモデルなど、様々な入力条件に柔軟に対応できる。
提案手法は、既存手法と比べて高品質な4Dコンテンツを短時間で生成できる。