핵심 개념
提案するMER-MCEフレームワークは、テキスト、音声、視覚の各モダリティを活用して感情を認識し、マルチモーダルな言語モデルを使って感情の原因を抽出する。
초록
本研究では、SemEval-2024 Task 3のマルチモーダル感情原因ペア抽出タスクに取り組むため、MER-MCEフレームワークを提案した。
MER-MCEは2つのステージから構成される:
- マルチモーダル感情認識(MER)ステージ
- テキスト、音声、視覚の各モダリティから特徴を抽出し、注意機構を使ってフュージョンする
- 感情を正確に認識するためにモダリティ固有の特徴を活用する
- マルチモーダル感情原因抽出(MCE)ステージ
- 認識された感情に基づいて、マルチモーダル言語モデルを使って会話の文脈と視覚情報を統合し、感情の原因となる発話を特定する
- 生成的アプローチにより、柔軟で解釈可能な感情原因抽出を実現する
実験評価の結果、提案手法は第3位の成績を収めた。モダリティ間の相互補完性と、マルチモーダル言語モデルの有効性が示された。一方で、視覚・音声特徴の精度向上、長距離依存関係の捕捉など、課題も明らかになった。
통계
感情カテゴリ「怒り」「嫌悪」「恐怖」「喜び」「悲しみ」「驚き」の6つを対象とした
学習データ1001会話、検証データ112会話、テストデータ261会話を使用した