이 연구는 SemEval 2024 Task 3인 "대화에서 다중 모달 감정 원인 분석"을 다룬다. 이 과제는 다중 모달(텍스트, 오디오, 비주얼) 대화에서 개별 발화의 감정을 식별하고 해당 감정의 원인이 되는 발화를 추출하는 것을 목표로 한다.
연구진은 이 문제를 3단계로 접근했다:
이를 위해 다음과 같은 모델 아키텍처를 실험했다:
실험 결과, 발화 단위 레이블링 모델이 시퀀스 레이블링 모델보다 더 좋은 성능을 보였다. 또한 감정 관련 태스크에 사전 학습된 언어 모델(EmotionRoBERTa)이 더 나은 성능을 보였다.
이 연구는 대화 감정 분석과 원인 추출의 중요성을 강조하며, 다양한 모달리티를 활용한 접근법을 제시했다. 향후 연구에서는 모달리티 간 통합 임베딩 학습, 화자 정보 활용 등을 시도해볼 수 있다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究