本論文では、テキストプロンプトから高品質な3Dシーンを生成する手法「RealmDreamer」を提案している。
まず、テキストプロンプトから2Dの参照画像を生成し、モノラル深度推定モデルを使ってこれを3Dポイントクラウドに変換する。次に、2Dの修復拡散モデルを使ってこのポイントクラウドを補完し、一貫性のある3Dシーンを生成する。さらに、深度拡散モデルを活用して、より正確な幾何学構造を学習する。最後に、テキストに合わせて生成された画像を使ってモデルを微調整し、より鮮明な3Dシーンを得る。
提案手法は、既存手法と比べて以下の特徴がある:
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jaidev Shrir... lúc arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07199.pdfYêu cầu sâu hơn