本研究は、高解像度(1,024×1,024)の画像から3Dモデルを生成する新しい手法「Hi3D」を提案している。
まず、ビデオ拡散モデルを改良し、単一の入力画像から3D認識を伴う低解像度(512×512)の多視点画像(オービタルビデオ)を生成する。次に、この低解像度の多視点画像に深度情報を加えて、3D認識を強化しながら高解像度(1,024×1,024)の多視点画像に変換する。最後に、生成された高解像度の多視点画像に補間ビューを追加し、SDF(符号付き距離関数)ベースの手法を用いて高品質な3Dメッシュを抽出する。
実験の結果、提案手法は従来手法と比べて、多視点一貫性と高解像度テクスチャの両面で優れた3Dモデルを生成できることが示された。また、テキストから3Dモデルを生成する応用例も示されている。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問