Core Concepts
ディフュージョンモデルを用いて、音声や文字入力から手話ジェスチャーを生成する手法を提案する。手話ジェスチャーの細かな動作を正確に生成するために、手話の言語ルールを組み込んだグロスを導入し、さらに音声リズムを考慮したモジュールを設計する。
Abstract
本研究は、聴覚障害者のためのコミュニケーション手段である手話ジェスチャーの自動生成手法を提案している。手話ジェスチャーは唇の動きと手の動きを組み合わせた複雑な動作であり、その生成は大変な課題である。
具体的には以下の3つの主要な貢献がある:
グロスと呼ばれる手話ジェスチャーの言語ルールを組み込んだ生成フレームワーク「GlossDiff」を提案した。これにより、音声や文字入力から手話ジェスチャーの細かな動作を正確に生成できる。
手話ジェスチャーの自然なリズムを学習する「Audio-driven Rhythmic Module」を提案した。これにより、手話ジェスチャーの動作とスピーチの音声リズムを適切に同期させることができる。
中国語手話の大規模データセット「MCCS」を新たに構築した。これまで公開されていた手話データセットは少数の話者のみだったが、本研究では4人の話者による4,000文の手話ジェスチャー動画を収集した。
実験の結果、提案手法は既存手法と比べて、手話ジェスチャーの正確性、リズム、自然さの全ての指標で優れた性能を示した。また、ユーザー評価でも高い評価を得た。本研究は聴覚障害者のコミュニケーション支援に大きく貢献すると期待される。
Stats
手話ジェスチャーの正確性を示すPCKは54.23%で、既存手法より6.65ポイント高い。
手話ジェスチャーのリズム同期を示すGADは79.4%で、既存手法より12.7ポイント高い。
手話ジェスチャーの自然さを示すMADは0.52 mm/s2で、既存手法より1.6 mm/s2低い。
Quotes
"手話は聴覚障害者にとって主要なコミュニケーション手段であり、手話ジェスチャーの自動生成は大きな課題である。"
"手話ジェスチャーの生成には、唇の動きと手の動きを同時に正確に生成し、適切にリズムを合わせることが重要である。"