本研究は、オーディオ駆動型トーキングヘッド合成の新しいアプローチを提案している。主な特徴は以下の通り:
3D ガウシアンスプラッティングと FLAME モデルを統合し、ガウシアンを FLAME メッシュにバインドすることで、正確な表情と口の動きを実現している。
話者固有のモーション生成モジュールにより、オーディオ特徴から話者の特徴的な口の動きを抽出し、自然な口の動きを生成している。
話者固有のブレンドシェイプを導入し、FLAME モデルの限界を克服し、より詳細な表情を再現している。
高速な推論速度(130 FPS)を実現し、リアルタイムでの動画合成が可能となっている。
実験結果から、提案手法が既存手法と比べて、画質、口の同期精度、視覚的品質において優れた性能を示していることが分かる。また、話者非依存の入力にも強い一般化性能を発揮している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hongyun Yu,Z... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.14037.pdfDeeper Inquiries