Core Concepts
拡散時間ステップカリキュラムを活用することで、高品質で多視点整合性のある3次元アセットを単一の任意の画像から効率的に生成できる。
Abstract
本論文は、単一の画像から3次元アセットを生成する問題に取り組んでいる。この問題は非常に難しい課題であるが、最近の大規模な事前学習済み2次元拡散モデルの進歩により、見えていない視点の合成が可能になった。
提案手法のDTC123は以下の3つの主要な要素から構成される:
時間ステップカリキュラム
大きな時間ステップでは粗い概念を捉え、小さな時間ステップでは細かな詳細に焦点を当てる
学生モデルと教師モデルがこの時間ステップカリキュラムに従って協調する
学生モデルの段階的な3次元表現
NeRFを使って低解像度の概念を初期に捉え、その後DMTetを使って高解像度の詳細を学習
教師モデルの粗細の段階的ガイダンス
Zero-1-to-3による粗い形状ガイダンス、Stable Diffusionによる細かなテクスチャガイダンス
これらの要素を統合することで、DTC123は従来のSDS系手法に比べて幾何学的整合性と質感の忠実度が大幅に向上した高品質な3次元アセットを生成できる。
Stats
大きな時間ステップでは、Zero-1-to-3の方がStable DiffusionよりもマスクのIoUが高く、より正確な輪郭を提供できる。
小さな時間ステップでは、Stable Diffusionの方がCLIP類似度が高く、より現実的なテクスチャを生成できる。
Quotes
"大きな時間ステップでは粗い概念を捉え、小さな時間ステップでは細かな詳細に焦点を当てる"
"学生モデルと教師モデルがこの時間ステップカリキュラムに従って協調する"