Core Concepts
会話における個々の発話の感情を特定し、その感情の原因となった発話を抽出する。
Abstract
本論文では、SemEval 2024のタスク「マルチモーダル感情原因ペア抽出」に取り組んでいる。このタスクでは、会話における個々の発話の感情(怒り、嫌悪、恐怖、喜び、中立、悲しみ、驚き)を特定し、その感情の原因となった発話を抽出することが求められる。
提案するシステムは3つのステップで構成される:
個々の発話の感情を分類するモデルの構築
発話が感情の原因となる可能性があるかを判別するモデルの構築
感情と原因の発話ペアを特定するモデルの構築
これらのステップでは、単純なニューラルネットワークから、BiLSTMやBiLSTM-CRFなどの系列ラベリングモデルまで、様々なアーキテクチャを検討している。また、テキスト、音声、視覚の3つのモダリティを組み合わせた表現学習を行っている。
実験の結果、単純な発話ラベリングモデルが最も良好な性能を示した。一方、系列ラベリングモデルでは期待ほどの効果が得られなかった。これは、会話の平均長が10発話と短いため、前後の発話コンテキストが感情推定に大きな影響を与えないためと考えられる。
Stats
会話の平均長は10発話
感情ラベルの分布に大きな偏りがある