이 논문은 대화에서의 감정 인식(ERC) 문제를 다룹니다. ERC는 대화 시스템이 사용자의 요청에 효과적으로 대응하기 위해 중요한 역할을 합니다. 대화에서의 감정은 오디오, 시각, 텍스트와 같은 다양한 모달리티의 표현을 통해 식별될 수 있습니다. 그러나 비언어적 모달리티의 감정 인식 기여도가 약하기 때문에 다중 모달 ERC는 항상 어려운 과제로 여겨져 왔습니다.
이 논문에서는 교사 주도 다중 모달 융합 네트워크(TelME)를 제안합니다. TelME는 언어 모델을 교사로 활용하여 비언어적 학생 모델에 지식을 전달함으로써 약한 모달리티의 효과를 최적화합니다. 또한 학생 네트워크가 교사를 지원하는 시프트 융합 접근법을 통해 다중 모달 특징을 결합합니다. TelME는 MELD 데이터셋에서 최신 성능을 달성했으며, 구성 요소의 효과성을 추가 실험을 통해 입증합니다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Taeyang Yun,... о arxiv.org 04-02-2024
https://arxiv.org/pdf/2401.12987.pdfГлибші Запити