顔の表情は必ずしも真の感情を反映するとは限らないため、表情認識に加えて目の動きなどの行動データを用いることで、より正確な感情認識が可能になる。
音声、視覚、テキストの各モダリティからの感情的な手がかりを統合することで、人間の感情をより正確に認識し解釈できる、新しいマルチモーダル大規模言語モデルEmotion-LLaMAが提案されている。
EEG、ビデオ、音声といった複数のモダリティのデータを統合することで、感情認識の精度を向上させることができる。
ビジョン-言語プロンプト学習とモダリティドロップアウトを用いることで、感情認識の精度と一般化性能を向上させることができる。
マルチモーダル感情認識は重要な研究分野であり、データ不足や環境ノイズなどの課題に取り組むため、半教師あり学習、ノイズ耐性、オープンボキャブラリーの3つのトラックを設定した。
論文は、マルチモーダル感情認識において、有向非巡回グラフを活用し、カリキュラム学習を組み合わせた新しいアプローチであるMultiDAG+CLを提案しています。