核心概念
顔の表情は必ずしも真の感情を反映するとは限らないため、表情認識に加えて目の動きなどの行動データを用いることで、より正確な感情認識が可能になる。
摘要
顔の笑顔と目の悲しみ:顔の表情と目の動作に基づく感情認識
本研究は、顔の表情認識 (FER) だけでは真の感情を捉えきれない場合があるという問題意識から、目の動作などの行動データを用いることで、より正確な感情認識 (ER) を実現することを目的とする。
本研究では、まず、121人の参加者から、刺激的な動画を視聴中の顔の表情、目の動き、視線データを収集し、新しいマルチモーダル感情認識データセットEMERを作成した。このデータセットには、感情と表情の両方のアノテーションが含まれており、両者の間の「感情ギャップ」を分析することができる。さらに、このデータセットを用いて、目の動作に着目した新しいマルチモーダル感情認識Transformer (EMERT) アーキテクチャを開発した。EMERTは、敵対的学習とマルチタスクTransformerを用いることで、表情と目の動作の両方から感情情報を効果的に抽出する。