이 논문은 다중 모달 감정 분석을 위한 신뢰할 수 있는 모델인 TMSON을 제안한다.
먼저, 각 모달(텍스트, 시각, 오디오)에 대해 특징 추출기를 설계하여 모달별 특징을 얻는다. 그 다음, 각 모달의 불확실성 분포를 추정하는 모듈을 도입한다. 이 모듈은 각 모달의 평균과 분산을 예측하여 모달의 신뢰도를 나타낸다.
다음으로, 베이즈 융합을 통해 이 불확실성 분포들을 융합하여 다중 모달 분포를 얻는다. 융합된 다중 모달 분포는 개별 모달 분포에 비해 더 작은 분산을 가지며, 따라서 더 강건한 감정 예측이 가능하다.
마지막으로, 감정 공간에 서열 회귀 손실을 도입하여 감정 카테고리 간 서열 관계를 모델에 반영한다. 이를 통해 감정 예측의 정확도를 더욱 높일 수 있다.
실험 결과, TMSON은 기존 방법들에 비해 우수한 성능을 보였으며, 특히 노이즈가 있는 환경에서도 안정적인 성능을 유지하는 것으로 나타났다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Zhuyang Xie,... klokken arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08923.pdfDypere Spørsmål