المفاهيم الأساسية
音声とテキストの両方の情報を活用して、より表現力豊かで自然な全身ジェスチャーを生成する新しいフレームワーク、ExpGestが提案された。
本稿は、音声とテキストの両方の情報を活用して、より表現力豊かで自然な全身ジェスチャーを生成する新しいフレームワーク、ExpGestを提案する研究論文である。
研究目的
既存の音声駆動ジェスチャー生成手法は、音声の特徴のみに基づいており、発話内容や感情、歩行などの要素を考慮に入れていないため、硬く機械的なジェスチャーしか生成できないという課題があった。本研究は、音声の内容と感情、そして歩行動作を反映した、より人間らしい自然で表現力豊かなジェスチャーを生成することを目的とする。
手法
ExpGestは、拡散モデルに基づく学習フレームワークを採用し、テキストと音声の両方の情報を同期的に利用することで、表現力豊かな全身ジェスチャーを生成する。具体的には、以下の3つの要素から構成される。
意味空間におけるアラインメント: 音声の内容とジェスチャーの間に意味的な整合性を持たせるため、音声の書き起こしテキストとジェスチャーを共通の潜在空間に埋め込み、その空間内でのアラインメントを学習する。
ジェスチャー要素の分離: 音声の韻律と意味情報に対する感度は、指と腕では異なるという観察に基づき、ExpGestは指と腕を分離し、それぞれに異なる重み付けで韻律と意味情報を割り当てることで、音声の内容と韻律の変化の両方に沿ったジェスチャーシーケンスを生成する。
ノイズベースの感情ガイド: 感情を表現するために、ノイズ分類器を導入し、サンプリングの各ステップでノイズを除去したジェスチャーを最適化することで、指定された感情の方向にジェスチャーを誘導する。
結果と評価
提案手法を評価するため、BEATデータセットを用いて、既存手法との比較実験を行った。評価指標としては、Fr´echet Gesture Distance (FGD)、Emotion Alignment (EA)、Emotion Control Success Rate (EC)、Semantic Alignment (SA)を用いた。実験の結果、ExpGestは、既存手法と比較して、FGD、EA、EC、SAの全ての評価指標において優れた性能を示した。
結論
本研究では、拡散モデルとハイブリッド音声テキストガイダンスを用いた、表現力豊かなスピーカー生成フレームワークExpGestを提案した。提案手法は、音声の内容と感情、歩行動作を反映した、より人間らしい自然で表現力豊かなジェスチャーを生成することができる。
今後の展望
今後は、より大規模で多様なデータセットを用いた学習や、より複雑な感情表現の生成、他のモーダル情報との統合などが課題として挙げられる。
الإحصائيات
既存手法と比較して、特徴空間で57.3 (42.7%)、生の空間で22 (65.2%)の改善が見られた。
SAにおいても、意味的-ジェスチャーの共通埋め込み空間と、アラインメントされた意味的特徴をガイダンス条件として使用したことで、改善が見られた。
180フレームのジェスチャースライスを生成するのに約20秒かかる。