Core Concepts
다중 모달 언어 모델을 활용하여 텍스트, 오디오, 시각적 정보를 통합하여 대화에서 감정과 그 원인을 정확하게 추출하는 새로운 프레임워크를 제안한다.
Abstract
이 논문은 SemEval 2024 Task 3의 Subtask 2에서 우승한 MIPS 팀의 제출 내용을 소개한다. 제안된 MER-MCE 프레임워크는 다음과 같은 특징을 가진다:
다중 모달 감정 인식(MER) 모듈: 텍스트, 오디오, 시각 정보를 활용하여 감정을 정확하게 인식하는 모듈. 각 모달리티에 특화된 모델을 사용하여 감정 관련 특징을 효과적으로 추출한다.
다중 모달 원인 추출(MCE) 모듈: 인식된 감정을 바탕으로 대화 맥락과 시각 정보를 통합하여 감정의 원인이 되는 발화를 정확하게 추출하는 모듈. 다중 모달 언어 모델을 활용하여 복잡한 대화 관계를 효과적으로 모델링한다.
실험 결과, MER-MCE 프레임워크는 SemEval 2024 Task 3 Subtask 2에서 가중 F1 점수 0.3435로 3위를 차지하며, 우수한 성능을 보였다. 이를 통해 다중 모달 정보의 통합이 감정 인식과 원인 추출에 효과적임을 입증하였다. 향후 연구에서는 자세 및 제스처 분석 등 추가 모달리티를 활용하여 모델의 일반화 및 강건성을 높이는 방향으로 발전시킬 계획이다.
Stats
대화에 포함된 다양한 감정 중 약 20%의 비중중립 감정이 중립으로 잘못 분류되었다.
데이터셋의 클래스 불균형으로 인해 "혐오"와 "공포" 감정 범주의 성능이 가장 낮았다.
시각 정보의 가림으로 인한 감정 분류 오류와 텍스트 내 강한 감정 유발 요소로 인한 혼란이 관찰되었다.
미래 발화를 고려한 장기 의존성 모델링의 필요성이 확인되었다.
Quotes
"다중 모달 정보의 통합이 감정 인식과 원인 추출에 효과적임을 입증하였다."
"향후 연구에서는 자세 및 제스처 분석 등 추가 모달리티를 활용하여 모델의 일반화 및 강건성을 높이는 방향으로 발전시킬 계획이다."