本論文では、感情遷移を伴う長期的な3Dコスピーチジェスチャー生成のための新しい弱教師学習手法を提案している。
まず、ChatGPT-4とaudioLDM2を用いて、感情遷移を伴う高品質な人間の音声を合成する。
次に、感情遷移に対応する3Dポーズアノテーションを取得するのが困難であるため、モーション遷移注入メカニズムと感情混合戦略を提案し、弱教師学習を行う。
モーション遷移注入メカニズムでは、異なる感情のジェスチャー間の時間的相関を モデル化し、遷移ジェスチャーの調整を行う。
感情混合戦略では、事前学習した姿勢ベースの感情分類器を利用して、遷移ジェスチャーに対する弱教師学習を行う。
さらに、キーフレームサンプラーを導入し、多様な初期ポーズを生成することで、長期的な感情遷移ジェスチャーの生成を実現している。
実験の結果、提案手法が既存手法を大きく上回る性能を示すことを確認した。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Xingqun Qi,J... في arxiv.org 03-28-2024
https://arxiv.org/pdf/2311.17532.pdfاستفسارات أعمق