本論文では、テキストプロンプトから高品質な3Dシーンを生成する手法「RealmDreamer」を提案している。
まず、テキストプロンプトから2Dの参照画像を生成し、モノラル深度推定モデルを使ってこれを3Dポイントクラウドに変換する。次に、2Dの修復拡散モデルを使ってこのポイントクラウドを補完し、一貫性のある3Dシーンを生成する。さらに、深度拡散モデルを活用して、より正確な幾何学構造を学習する。最後に、テキストに合わせて生成された画像を使ってモデルを微調整し、より鮮明な3Dシーンを得る。
提案手法は、既存手法と比べて以下の特徴がある:
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jaidev Shrir... at arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07199.pdfDeeper Inquiries