核心概念
提案手法は、音声情報と運動情報を効果的に統合し、自然で一貫性のある長期的な身振りジェスチャー動画を生成する。
要約
本研究では、音声駆動型の身振りジェスチャー動画生成に取り組んでいる。従来の手法は主に2D/3Dの人体スケルトンを生成するが、外見情報が欠落しているため、さらなる処理が必要となる。
本手法では、以下の2つの課題に取り組む:
複雑な人体運動と外見情報を効果的に表現できる適切な運動特徴量の設計
音声と身振りの inherent な時間的依存関係をモデル化し、任意の長さの一貫性のある動画を生成すること
具体的には、以下の3つのコアコンポーネントから成る新しい枠組みを提案する:
非線形のTPS変換を用いて運動特徴量を抽出し、画像合成ネットワークで動画フレームを生成する運動特徴量分離モジュール
音声特徴と運動特徴の時間的相関を学習し、拡散モデルを用いて長期的な運動特徴量系列を生成するモジュール
欠落した細部情報を補完し、より高品質な動画を生成するリファインメントネットワーク
実験の結果、提案手法は既存手法と比べて、運動の質、多様性、音声との同期性、全体的な品質において大幅に優れていることが示された。
統計
音声駆動型身振りジェスチャー動画生成タスクにおいて、提案手法は既存手法と比較して以下の指標で優れた性能を示した:
身振りの分布の類似度(FGD)を56.44%改善
身振りの多様性(Div.)を8.54%向上
音声との同期性(BAS)を改善
全体的な動画品質(FVD)を30.7%向上
引用
"提案手法で生成された身振りジェスチャー動画は、音声に自然に合致しており、本物と見間違えるほど自然である"
"生成された動画は、本物の動画と比べると、外見的な細部情報に欠けるものの、運動の質は非常に高い"