核心概念
論文は、マルチモーダル感情認識において、有向非巡回グラフを活用し、カリキュラム学習を組み合わせた新しいアプローチであるMultiDAG+CLを提案しています。
摘要
この論文では、会話中の感情認識に焦点を当て、テキスト、音声、視覚的特徴を統合するために有向非巡回グラフ(DAG)を使用したMultiDAG+CLアプローチが提案されています。カリキュラム学習(CL)の導入により、感情変化やデータの不均衡に対処し、モデルのパフォーマンスが向上します。実験結果では、MultiDAG+CLモデルがIEMOCAPおよびMELDデータセットで基準モデルを上回ることが示されています。
統計資料
bc-LSTM (Poria et al., 2017):59.62%
MFN (Zadeh et al., 2018):64.11%
ICON (Hazarika et al., 2018):68.40%
DialogueRNN (Majumder et al., 2019):73.87%
DialogueGCN (Ghosal et al., 2019):72.81%
DAG-ERC (Shen et al., 2021):66.79%
MMGCN (Hu et al., 2021):74.71%
CTNet (Lian et al., 2021):78.7%
DAG-ERC+HCL (Yang et al., 2022):63.89%
COGMEN (Joshi et al., 2022):68.2%
MultiDAG (Ours):71.78%
MultiDAG+CL (Ours):71.61%
引述
"DialogueGCN: A graph convolutional neural network for emotion recognition in conversation." - Deepanway Ghosal, Navonil Majumder, Soujanya Poria, Niyati Chhaya, and Alexander Gelbukh.
"ICON: Interactive conversational memory network for multimodal emotion detection." - Devamanyu Hazarika, Soujanya Poria, Rada Mihalcea, Erik Cambria, and Roger Zimmermann.
"DAG-GNN: DAG structure learning with graph neural networks." - Yue Yu, Jie Chen, Tian Gao, and Mo Yu.