核心概念
文脈情報を統合することで、表情、発話、生理信号などの複数のモダリティを融合し、より正確な感情状態認識が可能となる。
摘要
本研究では、表情の熱画像データ、表情筋活動、テキストによる文脈情報を組み合わせたマルチモーダルアプローチを提案している。
- 表情の熱画像データ、表情筋活動、テキストによる文脈情報を個別にエンコーダで処理し、それらを加算融合する。
- その後、共有のトランスフォーマーエンコーダで処理することで、モダリティ間の時間的依存関係や相互作用をモデル化する。
- パックマンゲームを用いた実験では、提案手法が文脈情報を考慮することで、楽しさ、退屈さ、フラストレーションといった感情状態を高精度に認識できることを示した。
- 特に、楽しさとフラストレーションの識別精度が大幅に向上した。一方で、退屈さの認識精度は相対的に低かった。
- 単一のモダリティでは感情状態を正確に捉えられないが、提案手法のようにマルチモーダルを融合することで、より包括的な感情理解が可能となる。
統計資料
中立状態の認識精度は91.1%であった。
楽しさの認識精度は96.9%と最も高かった。
退屈さの認識精度は78.3%と相対的に低かった。
フラストレーションの認識精度は85.8%であった。
引述
"文脈情報を考慮することで、表情、発話、生理信号などの複数のモダリティを融合し、より正確な感情状態認識が可能となる。"
"提案手法のようにマルチモーダルを融合することで、より包括的な感情理解が可能となる。"