Core Concepts
提案されたReal3D-Portraitは、一発でリアルな3Dトーキングポートレートを合成する革新的なフレームワークです。
Abstract
Abstract:
目的: 一発でリアルな3Dトーキングポートレートを生成する。
方法: 大規模なImage-to-planeモデルと効率的なMotion Adapterを設計。
結果: 自然なトルソ運動と切り替え可能な背景の合成に成功。
貢献: ジェネリックオーディオtoモーションモデルの導入。
Introduction:
目的: トーキングヘッド生成の長年の課題に取り組む。
関連研究: NeRFに基づく方法が優れているが、個別のトレーニングが必要。
Real3D-PORTRAIT:
Image-to-plane Model: マルチビュー画像データセットで事前学習。
Motion Adapter: PNCC条件付きで表情を制御する軽量MAを学習。
HTB-SR Model:
SR Branch, Torso Branch, Background Branchから構成される。
Generic Audio-to-Motion Model:
HuBERTを使用して音声からPNCCモーション表現に変換。
Experimental Setup:
データ準備: CelebV-HQおよびVoxCeleb2データセット使用。
Quantitative Evaluation:
同一/異なるアイデンティティ再演結果評価。Real3D-PORTRAITが最高性能を達成。
Qualitative Evaluation:
ユーザースタディ:MOSスコアによる比較。Real3D-PORTRAITが他の手法よりも優れた性能を示す。
Ablation Studies:
I2PおよびMotion Adapter:事前学習と微調整が重要。大規模I2Pモデルサイズが良好な結果をもたらすことが示唆される。
Stats
一つ目の目標は、正確な3Dアバター再構築とアニメーションです。
二つ目の目標は、合成されたビデオに自然なトルソ運動と切り替え可能な背景を持たせることです。
Quotes
"Extensive experiments show that Real3D-Portrait generalizes well to unseen identities and generates more realistic talking portrait videos compared to previous methods."