核心概念
本手法は、音声入力に基づいて、表情、手の動き、体の動きが調和的に連携した、多様な全身動作を生成する。
要約
本論文は、音声に同期した3Dアバターの自然で生き生きとした全身動作を生成する問題に取り組んでいる。特に、可変性と調和性の2つの重要な側面に焦点を当てている。
可変性により、アバターは同様の音声内容でも幅広い動作を示すことができる。一方、調和性により、表情、手の動き、体の姿勢が調和的に連携する。
提案手法「ProbTalk」は、確率的なVAEベースのフレームワークを用いて、顔の表情、手の動き、体の動きを統一的にモデル化する。具体的には以下の3つの設計を採用している:
複雑なホリスティックな動作を表現するため、VAEにProduct Quantization (PQ)を導入する。
効率的な推論と効果的な予測を実現するため、マスクGITと2次元位置エンコーディングを組み合わせた非自己回帰モデルを提案する。
高周波の詳細を捉えるため、予備的な予測を精緻化する二段階のリファイナーを導入する。
実験結果から、提案手法が定性的・定量的な評価において、従来手法を大きく上回ることが示された。特に、リアリズムの向上が顕著であった。
統計
音声信号の長さは26.9時間に及ぶ。
実験には4人の話者のデータを使用した。
訓練、検証、テストデータの割合は80:10:10である。
引用
"Communication is not just about what we hear; it is a comprehensive sensory experience integrating non-verbal signals like body poses, hand gestures, and facial expressions, all crucial to effective communication."
"Unlike previous methods, we propose a unified probabilistic framework for co-speech motion generation. Our approach not only attains coordination between the facial and body movements but also ensures their motions are variable and diverse."