核心概念
テキストガイドに基づいて、入力の粗いメッシュに幾何学的詳細を追加する新しい手法を提案する。
要約
本論文では、入力の粗いメッシュにテキストガイドに基づいて幾何学的詳細を追加する新しい手法を提案している。
この手法は3つのステージから構成される:
入力のコースメッシュとテキストプロンプトに基づいて単一ビューのRGB画像を生成する。これにより、ユーザーは結果のプレビューを得ることができ、後続の処理に強い制御を与えることができる。
生成された単一ビューのRGB画像と入力メッシュの複数ビューの法線レンダリングを使って、整合性のある複数ビューの法線画像を生成する。これにより、入力メッシュの粗い構造を保ちつつ、詳細な情報を付与することができる。
生成された複数ビューの法線画像を使って、入力メッシュを最適化し、詳細な幾何学的形状を生成する。この最適化は微分可能なレンダリングを使って高速に行うことができる。
提案手法は、テキストガイドに基づいて3Dメッシュの詳細を生成できるだけでなく、入力メッシュの粗い構造や姿勢を保ちつつ、ユーザーが細かい制御を行えるという特徴がある。実験結果から、提案手法は現状の手法と比べて高品質な出力を高速に生成できることが示された。
統計
入力メッシュと入力テキストプロンプトから、数秒で詳細な3Dメッシュを生成できる。
提案手法は、現状の手法と比べて約90倍高速に動作する。