Khái niệm cốt lõi
本稿では、インタラクティブなポイントクラウド構造の潜在空間を用いた、スケーラブルで高品質な3D生成を実現する新しい3D生成フレームワーク、GAUSSIANANYTHINGを提案する。
Tóm tắt
GAUSSIANANYTHING: インタラクティブなポイントクラウド潜在拡散を用いた3D生成
本論文は、既存の3D生成手法が抱える入力形式、潜在空間設計、出力表現における課題を解決し、インタラクティブな編集が可能な、スケーラブルで高品質な3D生成を実現する新しいフレームワークを提案する。
提案手法であるGAUSSIANANYTHINGは、ポイントクラウド構造の潜在空間を用いる点が特徴である。
3D VAE: 複数視点のRGB-D-N(深度-法線)レンダリング画像を入力とし、シーン表現Transformerを用いて効率的にエンコードする。得られた潜在表現は、入力3D形状からサンプリングされた疎なポイントクラウドとクロスアテンションを用いて関連付けられ、ポイントクラウド構造の潜在コードが生成される。
カスケード型3D拡散モデル: 潜在空間上でカスケード型の潜在拡散モデルを学習する。まず、ポイントクラウド拡散モデルが入力形状の全体的なレイアウトを生成し、次に、生成されたポイントクラウドを条件として、ポイントクラウド特徴拡散モデルが対応する特徴を生成する。
サーフェルガウシアンデコーディング: 生成された特徴付きポイントクラウドは、事前学習済みのVAEデコーダによってサーフェルガウシアンにデコードされ、高解像度レンダリングに利用される。