Keskeiset käsitteet
本稿では、テキスト、画像、音声を含むあらゆるモダリティから3Dオブジェクトを生成できる、クロスモーダル事前整列技術を用いた統一フレームワーク「XBind」を提案する。
Tiivistelmä
XBindの概要
本稿では、任意のモダリティからの入力を受け取り、高品質な3Dオブジェクトを生成するフレームワーク「XBind」が提案されている。XBindは、粗から精細への戦略を用い、モデルの最適化を3つのフェーズに分割することで、高品質な3Dオブジェクト生成を実現している。
第1フェーズ:粗最適化
- 低解像度のNeRFを用いて、モダリティプロンプトに沿った粗いテクスチャと3D形状を学習する。
- 画素レベルの平面監視(MS損失、拡張2D SDS損失)と空間レベルの立体視覚監視、法線ベクトル正則化を用いてNeRFを更新する。
第2フェーズ:ジオメトリの refinement
- 第1フェーズで得られた低解像度NeRFをSDFに変換し、高解像度DMTETを用いて3D表現を最適化する。
- 画素レベルの平面監視(MS損失、CDS損失)、空間レベルの立体視覚監視、法線consistency損失、Laplacian smoothness損失を用いて、3Dオブジェクトのジオメトリを refinement する。
第3フェーズ:テクスチャの refinement
- 第2フェーズで得られたジオメトリを固定し、DMTETからレンダリングされたカラー画像を用いて、テクスチャを最適化する。
- 画素レベルの平面監視(MS損失、拡張2D SDS損失)と空間レベルの立体視覚監視を用いて、3D表現を最適化し、高忠実度の3Dオブジェクトを生成する。
XBindの特徴
- 複数のモダリティ(テキスト、画像、音声)から3Dオブジェクトを生成できる。
- ハイブリッド拡散監視を用いることで、高品質なジオメトリとテクスチャを持つ3Dオブジェクトを生成できる。
- 3段階の最適化プロセスにより、粗い表現から詳細な表現へと段階的に3Dオブジェクトを生成できる。
XBindの評価
- テキスト、画像、音声の各モダリティを入力プロンプトとして、XBindの生成結果が示されている。
- いずれのモダリティにおいても、XBindはプロンプトに沿った高忠実度の3Dオブジェクトを生成できることが示されている。
- 既存のtext-to-3D手法との比較においても、XBindは高品質な3Dオブジェクトを生成できることが示されている。
XBindの限界
- 生成される結果は、2つの拡散モデルの事前知識に依存するため、拡散モデルの限界に影響を受ける可能性がある。
- 現実世界の複雑なシーンを完全に表現するには、さらなる研究が必要である。
Tilastot
カメラの仰角は-45度から45度、方位角は-180度から180度の範囲でサンプリングされる。
レンダリング解像度は、第1フェーズでは128×128、第2フェーズと第3フェーズでは512×512に設定される。
最適化には、AdamオプティマイザとAdanオプティマイザが使用される。
3D表現には、NeRFとDMTETが使用される。
評価には、CLIP-R、CLIP-I、ARCCの3つの指標が使用される。