本研究は、会話における感情認識(ERC)の分野における重要な課題に取り組んでいる。従来のERC手法は主に単一モーダルな手がかり(テキスト、オーディオ、ビデオ)に依存しており、その有効性に限界があった。
具体的な課題は以下の2点:
本研究では、これらの課題に対処するため、Mamba強化テキスト-オーディオ-ビデオアラインメントネットワーク(MaTAV)を提案した。MaTAVは以下の2つの特徴を備えている:
MATAVは、MELD and IEMOCAPデータセットにおいて、既存の最先端手法を大幅に上回る性能を示した。特に、IEMOCAP データセットでは、Neutral、Sadness、Frustration などのカテゴリで優れた結果を得た。MELD データセットでは、Neutral、Joy、Anger などのカテゴリで高い精度を達成した。これは、MaTAVの高度な対話理解能力により、感情表現の微妙な変化や文脈を効果的に捉えられたことによるものと考えられる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Xinran Li, X... alle arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.05243.pdfDomande più approfondite