Core Concepts
대화에서 개별 발화의 감정을 식별하고 해당 감정의 원인이 되는 발화를 추출하는 것이 이 연구의 핵심 목표이다.
Abstract
이 연구는 SemEval 2024 Task 3인 "대화에서 다중 모달 감정 원인 분석"을 다룬다. 이 과제는 다중 모달(텍스트, 오디오, 비주얼) 대화에서 개별 발화의 감정을 식별하고 해당 감정의 원인이 되는 발화를 추출하는 것을 목표로 한다.
연구진은 이 문제를 3단계로 접근했다:
개별 발화의 감정 식별
감정 원인이 될 수 있는 발화 후보 식별
감정 발화와 원인 발화 쌍 매칭
이를 위해 다음과 같은 모델 아키텍처를 실험했다:
단순 신경망 기반 분류기
BiLSTM 기반 시퀀스 레이블링
BiLSTM-CRF 기반 시퀀스 레이블링
실험 결과, 발화 단위 레이블링 모델이 시퀀스 레이블링 모델보다 더 좋은 성능을 보였다. 또한 감정 관련 태스크에 사전 학습된 언어 모델(EmotionRoBERTa)이 더 나은 성능을 보였다.
이 연구는 대화 감정 분석과 원인 추출의 중요성을 강조하며, 다양한 모달리티를 활용한 접근법을 제시했다. 향후 연구에서는 모달리티 간 통합 임베딩 학습, 화자 정보 활용 등을 시도해볼 수 있다.
Stats
대화 데이터셋에는 총 13,509개의 발화가 포함되어 있으며, 평균 10개의 발화로 구성된 1,344개의 대화로 이루어져 있다.
데이터셋의 감정 분포가 매우 편향되어 있다(그림 2 참조).