Core Concepts
3D GANと拡散モデルを組み合わせることで、テキストガイドの3Dアバター生成とドメイン適応を大幅に向上させることができる。
Abstract
本論文では、DiffusionGAN3Dと呼ばれる新しい2段階のフレームワークを提案している。このフレームワークは、3D GANと拡散モデルを組み合わせることで、テキストガイドの3Dドメイン適応とアバター生成の性能を大幅に向上させる。
第1段階では、事前学習済みの3D生成モデル(EG3D)と拡散モデルを統合する。拡散モデルは強力なテキスト-画像の前提条件を提供し、3D GANの微調整を効率的かつ柔軟に行うことができる。また、相対距離損失を導入することで、多様性の低下を抑制する。さらに、拡散ガイド再構成損失を設計することで、局所編集シナリオにも対応できる。
第2段階では、事前学習済み3D GANをベースとしたテキストガイド3Dアバター生成を実現する。ケース固有の学習可能なトライプレーンを導入することで、高い生成能力を実現する。さらに、拡散モデルの強力な2D合成能力を活用し、プログレッシブなテクスチャ改善モジュールを提案することで、生成されたテクスチャの品質を大幅に向上させる。
実験結果から、提案手法がテキストガイドの3Dドメイン適応とアバター生成の両方において、既存手法を大きく上回る性能を示すことが分かった。
Stats
提案手法は既存手法と比べて、3Dドメイン適応タスクでFIDスコアが大幅に低い。
ユーザースタディでも、提案手法は既存手法を大きく上回る性能を示した。特に、画質と多様性の点で優れている。
テキストガイド3Dアバター生成タスクでも、提案手法が最も高い支持を得た。
Quotes
"3D portrait generation and stylization find a vast range of applications in many scenarios, such as games, advertisements, and film production."
"Unlike these adversarial finetuning based methods, StyleGAN-Fusion [48] adopts SDS [37] loss as guidance of text-guided adaptation of 2D and 3D generators, which gives a simple yet effective way to fulfill domain adaptation."
"To sum up, in our framework, the diffusion models offer powerful text-image priors, which guide the domain adaptation of the 3D generator with informative direction in a flexible and efficient way. In turn, 3D GANs provide a strong foundation for text-to-avatar, enabling stable and high-quality avatar generation."