본 연구는 대화에서의 감정 인식(ERC) 문제를 해결하기 위해 Mamba 네트워크와 다중 모달 감정 대조 손실(MEC-Loss)을 활용한 MaTAV 프레임워크를 제안한다.
TAV-Encoders 모듈: 텍스트, 오디오, 비디오 데이터를 각각 RoBERTa, WavLM, VisExtNet 인코더를 통해 특징 벡터로 추출한다.
TAV-Alignment 모듈: MEC-Loss를 통해 다양한 모달리티 간 정렬을 보장한다. 이는 모달리티 간 불일치 문제를 해결한다.
멀티모달 융합 모듈: Mamba 네트워크를 활용하여 긴 대화 맥락을 효과적으로 포착한다. 이는 감정 변화를 잘 반영할 수 있다.
감정 분류기: 융합된 특징을 바탕으로 Softmax 분류기를 통해 감정 라벨을 예측한다.
실험 결과, MaTAV는 MELD와 IEMOCAP 데이터셋에서 기존 최신 방법들을 크게 능가하는 성능을 보였다. 이는 MaTAV의 모달리티 정렬과 맥락 포착 능력이 ERC 문제 해결에 효과적임을 보여준다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xinran Li, X... lúc arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.05243.pdfYêu cầu sâu hơn