toplogo
Masuk

音声駆動型3Dボディアニメーションのための分離潜在拡散


Konsep Inti
本研究は、音声から直接3Dボディジェスチャーを生成し、生成されたジェスチャーの感情を制御する手法を提案する。
Abstrak
本研究は、音声から3Dボディジェスチャーを生成する手法AMUSEを提案する。AMUSEは、音声入力を内容、感情、スタイルの3つの分離潜在ベクトルにエンコードする。これらの潜在ベクトルを条件として、潜在拡散モデルを用いて3Dボディジェスチャーを生成する。これにより、入力音声の感情を保ちつつ、別の感情や個人的なスタイルを持つジェスチャーを生成できる。 定量的評価では、提案手法が既存手法を上回る性能を示した。また、知覚評価実験では、提案手法の生成ジェスチャーが、既存手法と比べて音声との同期性が高く、適切な感情表現であると評価された。
Statistik
本研究で使用したBEAT[58]データセットには、8つの感情カテゴリ(中立、幸せ、怒り、悲しみ、軽蔑、驚き、恐怖、嫌悪)の音声と3Dモーションキャプチャデータが含まれている。 提案手法AMUSEは、音声入力から内容、感情、スタイルの3つの潜在ベクトルを抽出し、これらを条件としてジェスチャーを生成する。
Kutipan
"感情と表現は人間コミュニケーションの根本的な役割を果たす[32, 38, 68]ため、人間とインタラクションするコンピューターシステムの設計において重要な考慮事項となっている[82, 83]。" "音声駆動アニメーションシステムは、音声のリズムに合わせて動きを整列させるだけでなく、適切な感情を表現するジェスチャーを生成する能力も必要とされる。"

Pertanyaan yang Lebih Dalam

感情を表現するためのジェスチャーの生成以外に、どのような方法で音声から人間の非言語コミュニケーションを表現できるか?

音声から人間の非言語コミュニケーションを表現する方法はいくつかあります。例えば、テキストからの情報を活用してジェスチャーを生成することが考えられます。テキストからの情報を解釈し、その内容や感情に合ったジェスチャーを生成することで、より豊かなコミュニケーションを実現できます。また、音声と画像や動画を組み合わせて、よりリッチなコンテンツを生成する手法もあります。音声の情報と視覚的な情報を統合することで、より包括的なコミュニケーション表現が可能となります。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star