核心概念
人工知能システムによって生成されたジェスチャーは、人間の自然なジェスチャーと比べて、外見的には人間らしさが高く評価されるものの、発話内容との適合性は大幅に低いことが明らかになった。
要約
本論文は、人工知能によるジェスチャー生成の大規模オープンチャレンジ「GENEA Challenge 2022」について報告している。このチャレンジでは、参加チームが同一のデータセットを使ってジェスチャー生成システムを構築し、生成されたジェスチャーを共通の3Dアバターで可視化して、大規模なクラウドソーシングによる主観評価を行った。
評価では、生成されたジェスチャーの人間らしさと発話内容との適合性の2つの側面を分離して評価した。その結果、人工知能システムによって生成されたジェスチャーは、人間の自然なジェスチャーと比べて人間らしさが高く評価されるものの、発話内容との適合性は大幅に低いことが明らかになった。また、従来の客観的評価指標は、ジェスチャーの人間らしさを予測するのに有効ではないことも示された。
このチャレンジを通じて、ジェスチャー生成の現状と課題が明らかになり、今後の研究開発に向けた多くの知見が得られた。
統計
人間の自然なジェスチャーは発話内容との適合性が非常に高い。
人工知能システムによって生成されたジェスチャーは、人間の自然なジェスチャーと比べて人間らしさが高いが、発話内容との適合性は大幅に低い。
引用
"人工知能システムによって生成されたジェスチャーは、人間の自然なジェスチャーと比べて人間らしさが高く評価されるものの、発話内容との適合性は大幅に低い"
"従来の客観的評価指標は、ジェスチャーの人間らしさを予測するのに有効ではない"