核心概念
本研究は、音声から直接3Dボディジェスチャーを生成し、生成されたジェスチャーの感情を制御する手法を提案する。
要約
本研究は、音声から3Dボディジェスチャーを生成する手法AMUSEを提案する。AMUSEは、音声入力を内容、感情、スタイルの3つの分離潜在ベクトルにエンコードする。これらの潜在ベクトルを条件として、潜在拡散モデルを用いて3Dボディジェスチャーを生成する。これにより、入力音声の感情を保ちつつ、別の感情や個人的なスタイルを持つジェスチャーを生成できる。
定量的評価では、提案手法が既存手法を上回る性能を示した。また、知覚評価実験では、提案手法の生成ジェスチャーが、既存手法と比べて音声との同期性が高く、適切な感情表現であると評価された。
統計
本研究で使用したBEAT[58]データセットには、8つの感情カテゴリ(中立、幸せ、怒り、悲しみ、軽蔑、驚き、恐怖、嫌悪)の音声と3Dモーションキャプチャデータが含まれている。
提案手法AMUSEは、音声入力から内容、感情、スタイルの3つの潜在ベクトルを抽出し、これらを条件としてジェスチャーを生成する。
引用
"感情と表現は人間コミュニケーションの根本的な役割を果たす[32, 38, 68]ため、人間とインタラクションするコンピューターシステムの設計において重要な考慮事項となっている[82, 83]。"
"音声駆動アニメーションシステムは、音声のリズムに合わせて動きを整列させるだけでなく、適切な感情を表現するジェスチャーを生成する能力も必要とされる。"