本研究は、自然会話における共話ジェスチャーの検出に取り組んでいる。従来のジェスチャー検出アプローチは、ジェスチャーの有無を二値で分類するものが主流だったが、ジェスチャーは準備相、ストローク相、引き込み相といった複雑な時系列的な構造を持つ。
そこで本研究では、ジェスチャーの各相を個別にラベル付けする多相的な系列ラベリング問題として捉え直した。具体的には、スケルトンデータを時系列グラフとして表現し、Transformerエンコーダーを用いて文脈依存的な特徴を学習する。その上で、CRFを用いて各時間窓のラベルを予測する。
実験の結果、提案手法は従来の二値分類や多クラス分類手法に比べて、ストローク相の検出精度を大幅に向上させることができた。特に、Transformerエンコーダーを用いることで、ジェスチャーユニット全体の検出精度が向上した。これは、ジェスチャーの時系列的な構造を適切にモデル化できたことによると考えられる。
一方で、準備相や引き込み相といった境界相の検出精度は依然として低い傾向にある。これは、ストロークに比べてこれらの相の特徴が複雑であり、モデルがうまく捉えきれていないためと分析された。今後の課題として、境界相の検出精度向上に取り組む必要がある。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor