이 논문은 SemEval 2024 Task 3의 Subtask 2에서 우승한 MIPS 팀의 제출 내용을 소개한다. 제안된 MER-MCE 프레임워크는 다음과 같은 특징을 가진다:
다중 모달 감정 인식(MER) 모듈: 텍스트, 오디오, 시각 정보를 활용하여 감정을 정확하게 인식하는 모듈. 각 모달리티에 특화된 모델을 사용하여 감정 관련 특징을 효과적으로 추출한다.
다중 모달 원인 추출(MCE) 모듈: 인식된 감정을 바탕으로 대화 맥락과 시각 정보를 통합하여 감정의 원인이 되는 발화를 정확하게 추출하는 모듈. 다중 모달 언어 모델을 활용하여 복잡한 대화 관계를 효과적으로 모델링한다.
실험 결과, MER-MCE 프레임워크는 SemEval 2024 Task 3 Subtask 2에서 가중 F1 점수 0.3435로 3위를 차지하며, 우수한 성능을 보였다. 이를 통해 다중 모달 정보의 통합이 감정 인식과 원인 추출에 효과적임을 입증하였다. 향후 연구에서는 자세 및 제스처 분석 등 추가 모달리티를 활용하여 모델의 일반화 및 강건성을 높이는 방향으로 발전시킬 계획이다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문