本稿では、テキスト、画像、音声を含むあらゆるモダリティから3Dオブジェクトを生成できる、クロスモーダル事前整列技術を用いた統一フレームワーク「XBind」を提案する。
本稿では、単一視点の画像から3Dオブジェクトやシーンを高速かつ高品質に生成する新しい単一ステージ3D拡散モデル、DiffusionGSを提案する。
本稿では、テキストや単一画像から高品質な3Dモデルを高速に生成する統合フレームワーク「Hunyuan3D-1.0」を提案する。
3D-Adapterは、事前学習済みの画像拡散モデルに3Dジオメトリ認識を注入することで、マルチビュー画像拡散モデルのジオメトリ整合性を大幅に向上させるプラグインモジュールである。
本稿では、大規模再構成モデル(LRM)に基づいた、高速かつ制御可能な3D生成を実現するエンドツーエンドのフィードフォワードモデル、ControLRMを提案する。
Atlas Gaussiansと呼ばれる新しい3D表現手法と、それを用いた高品質な3D生成モデルを提案する。この手法は、従来の手法よりも高品質な3D形状を生成することができ、テキストによる条件付けも可能である。