核心概念
CRMは、単一の画像から高品質なテクスチャメッシュを生成するための畳み込み再構築モデルです。
要約
CRMは、単一の画像から高品質な3Dモデルを生成する手法であり、入力画像と出力トライプレーンとの空間的関係を効果的に活用しています。この手法は、従来のTransformerベースの手法よりも訓練コストが少なく、エンドツーエンドで直接テクスチャメッシュを出力します。全体として、この手法はわずか10秒で詳細なテクスチャメッシュを生成することができます。
統計
CRMは10秒で高品質なテクスチャメッシュを生成します。
Objaverseデータセットには376k以上の有効な高品質オブジェクトが含まれています。
モデルには約300Mパラメータが含まれています。
複数ビュー拡散モデルはGSOデータセットで評価されました。
8つのNVIDIA A800 80GB GPUカード上で6日間110kイテレーションで訓練されました。
引用
"Overall, our model delivers a high-fidelity textured mesh from an image in just 10 seconds."
"Our approach effectively utilizes the spatial relationship between input images and the output triplane."