核心概念
本研究は、3D ガウシアンスプラッティングと FLAME モデルを統合した GaussianTalker フレームワークを提案し、オーディオ入力に基づいて高品質で話者固有の動画を合成する。
要約
本研究は、オーディオ駆動型トーキングヘッド合成の新しいアプローチを提案している。主な特徴は以下の通り:
-
3D ガウシアンスプラッティングと FLAME モデルを統合し、ガウシアンを FLAME メッシュにバインドすることで、正確な表情と口の動きを実現している。
-
話者固有のモーション生成モジュールにより、オーディオ特徴から話者の特徴的な口の動きを抽出し、自然な口の動きを生成している。
-
話者固有のブレンドシェイプを導入し、FLAME モデルの限界を克服し、より詳細な表情を再現している。
-
高速な推論速度(130 FPS)を実現し、リアルタイムでの動画合成が可能となっている。
実験結果から、提案手法が既存手法と比べて、画質、口の同期精度、視覚的品質において優れた性能を示していることが分かる。また、話者非依存の入力にも強い一般化性能を発揮している。
統計
合成動画の PSNR は 37.08 と高い値を示している。
合成動画の SSIM は 0.9676 と高い値を示している。
合成動画の LPIPS は 0.0239 と低い値を示しており、高品質な画像を生成できている。
合成動画の FID は 4.57 と低い値を示しており、実際の動画に近い品質を実現できている。
合成動画の LMD は 3.278 と低い値を示しており、口の動きが実際の動画と良く一致している。
引用
"GaussianTalker は、3D ガウシアンスプラッティングと FLAME モデルを統合し、正確な表情と口の動きを実現している。"
"話者固有のモーション生成モジュールにより、オーディオ特徴から話者の特徴的な口の動きを抽出し、自然な口の動きを生成している。"
"話者固有のブレンドシェイプを導入し、FLAME モデルの限界を克服し、より詳細な表情を再現している。"