本論文では、SemEval 2024のタスク「マルチモーダル感情原因ペア抽出」に取り組んでいる。このタスクでは、会話における個々の発話の感情(怒り、嫌悪、恐怖、喜び、中立、悲しみ、驚き)を特定し、その感情の原因となった発話を抽出することが求められる。
提案するシステムは3つのステップで構成される:
これらのステップでは、単純なニューラルネットワークから、BiLSTMやBiLSTM-CRFなどの系列ラベリングモデルまで、様々なアーキテクチャを検討している。また、テキスト、音声、視覚の3つのモダリティを組み合わせた表現学習を行っている。
実験の結果、単純な発話ラベリングモデルが最も良好な性能を示した。一方、系列ラベリングモデルでは期待ほどの効果が得られなかった。これは、会話の平均長が10発話と短いため、前後の発話コンテキストが感情推定に大きな影響を与えないためと考えられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Suyash Vardh... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.02088.pdfDeeper Inquiries