Core Concepts
音声情報を活用することで、ジェスチャー検出の性能を大幅に向上させることができる。
Abstract
本研究では、音声と視覚情報を統合することで、共話ジェスチャーの検出精度を向上させることを目的としている。
ジェスチャーの形態と持続時間は話し言葉に依存して変化するため、ジェスチャー検出は困難な課題である。
音声と視覚情報の時間的なずれや、サンプリングレートの違いなどの課題に取り組むため、スライディングウィンドウ手法やTransformerエンコーダを活用している。
音声情報を活用することで、ジェスチャー検出の精度が大幅に向上することが示された。特に、視覚情報を超えるパフォーマンスが得られた。
音声情報を用いた場合、ジェスチャー予測の確信度と低レベルの音声周波数特徴量との相関が見られた。
Stats
音声情報を用いることで、ジェスチャー検出の精度が大幅に向上する。
音声情報を500ms拡張することで、F1スコアが44.1%から69.6%に、MAPが40.5%から74.2%に向上した。