核心概念
言語を使用して既存の3Dモデルのパラメータを制御し、訓練時に見られなかった新しい形状を生成することができる。
要約
本研究では、言語を使用して既存の3Dモデルのパラメータを制御し、訓練時に見られなかった新しい形状を生成する手法を提案している。
大規模な言語-画像モデル(VLM)の潜在空間を利用し、少量のトレーニングデータから3Dモデルのパラメータとの写像を学習する。
動物モデルとしては、既存のSMALモデルを拡張したSMAL+を使用し、より多くの種を表現できるようにした。
木モデルとしては、Blenderのツリー生成アドオンを使用した。
提案手法「AWOL」は、テキストや画像から3D動物や木を生成することができ、訓練時に見られなかった新しい種も生成できる。
動物生成では、既存手法と比較して、子犬の生成を除いて同等以上の性能を示した。
木生成では、テキストや画像から新しい種の木を生成することができた。
統計
動物モデルのSMAL+は145次元の潜在空間を持つ
木モデルのパラメータ空間は60次元