Kernkonzepte
EEG、ビデオ、音声といった複数のモダリティのデータを統合することで、感情認識の精度を向上させることができる。
Zusammenfassung
EEG、ビデオ、音声データを用いた感情認識のためのマルチモーダル表現学習
研究目的: 会話中の感情認識において、EEG、ビデオ、音声の3種類のモダリティのデータを統合することで、より正確な感情認識を実現するマルチモーダル学習フレームワークを提案する。
手法:
各モダリティのデータに対して、それぞれ最適化されたtransformerを用いて特徴量を抽出する。具体的には、ビデオデータにはVision Transformer (ViT)、音声データにはAudio Spectrogram Transformer (AST)、EEGデータにはEEGformerを用いる。
抽出した特徴量は、共有のマルチヘッドアテンションモジュールに入力され、各モダリティの特徴量の重要度が動的に調整される。
最後に、融合された特徴量は多層パーセプトロン (MLP) に渡され、怒り、悲しみ、中立、落ち着き、 happiness のような感情が分類される。
結果:
新しく提案されたマルチモーダル感情認識データセットEAVを用いて評価した結果、提案手法は70.86%の精度を達成し、従来の単一モダリティを用いた手法よりも優れた性能を示した。
特に、EEGデータのみを用いた場合の精度が53.51%、音声データのみを用いた場合の精度が58.17%であったのに対し、提案手法はこれらのモダリティを統合することで、より高い精度を実現することができた。
結論:
提案されたマルチモーダル学習フレームワークは、EEG、ビデオ、音声データの統合により感情認識の精度を向上させる効果的な手法であることが示された。
本研究は、EEGベースのマルチモーダル学習の今後の発展に貢献し、感情認識におけるより堅牢で汎用性の高いアプリケーションへの道を切り開くものである。
本研究は、感情認識におけるマルチモーダル学習の有効性を示すとともに、EEGデータの重要性を改めて示した。提案されたフレームワークは、感情認識技術の向上に貢献するだけでなく、脳波を用いたBMI技術など、幅広い分野への応用が期待される。