本論文は、音声駆動型3Dフェイシャルアニメーション合成の課題に取り組んでいる。従来の手法は、リアリズムを追求する決定論的なシステムに焦点を当ててきたが、フェイシャルモーションの確率的性質を特徴付けることはこれまであまり研究されていなかった。一方、生成モデリングアプローチは、一対多の対応を簡単に扱えるが、小規模データセットでプローバブルなフェイシャルモーションのモード・カバレッジを確保することは依然として課題となっている。
本手法では、同じ音声信号に対して複数のサンプルを予測し、サンプル間の多様性を明示的に促進することで、多様なフェイシャルアニメーション合成に取り組む。具体的には、ベクトル量子化された変分自己符号化(VQ-VAE)メカニズムで学習された豊かなフェイシャル事前知識に基づき、時系列的にランダムなコードをクエリすることで、多様かつ現実的なスピーチ忠実のフェイシャルモーションを生成する。さらに、異なるフェイシャル部位の制御を可能にするため、提案モデルは順次的にフェイシャル部位を予測し、それらを合成して最終的な全顔モーションを形成する。
実験的に、提案手法は特に多様性の点で最先端の性能を示し、定量的および定性的な評価で優れた結果を得ている。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Chunzhi Gu, ... klokken arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19143.pdfDypere Spørsmål