Core Concepts
本研究は、MOOCの学習シナリオにおいて、ビデオの意味情報と生理信号を融合することで、学習者の感情状態を正確に認識する新しい手法を提案する。
Abstract
本研究は、MOOCの学習シナリオにおける学習者の感情認識に関する新しい手法を提案している。
MOOCの学習では、教育ビデオの意味情報が学習者の感情状態に大きな影響を与えるが、これまでの研究ではあまり注目されていなかった。
本研究では、ビデオの意味情報と生理信号(眼球運動、PPG)を融合することで、学習者の感情状態をより正確に認識できる手法を提案した。
具体的には、大規模言語モデルを使ってビデオの説明文を生成し、意味情報を抽出する。これをクロスアテンションによって眼球運動とPPG信号と融合し、感情分類器に入力することで、感情認識精度を大幅に向上させた。
実験結果から、提案手法は従来手法に比べて14%以上の精度向上を達成し、MOOCの学習シナリオにおける感情認識に有効であることが示された。
また、公開データセットでの実験でも提案手法の汎用性が確認された。
Stats
ビデオの意味情報を活用することで、感情認識精度が大幅に向上した。
眼球運動信号と意味情報を融合した場合の精度は72.77%であり、生理信号(PPG)と意味情報を融合した場合の精度69.88%と比べて優れている。
提案手法では、全モーダルデータを融合した場合の精度が86.69%と、従来手法に比べて14%以上の向上が見られた。
Quotes
"本研究は、MOOCの学習シナリオにおいて、ビデオの意味情報と生理信号を融合することで、学習者の感情状態をより正確に認識できる新しい手法を提案した。"
"提案手法は従来手法に比べて14%以上の精度向上を達成し、MOOCの学習シナリオにおける感情認識に有効であることが示された。"