Основные понятия
다중 모달 정보를 활용하여 강력한 모달리티의 기여도를 강조하고 약한 모달리티의 효과를 향상시키는 방법을 제안한다.
Аннотация
이 논문은 대화에서의 감정 인식(ERC) 문제를 다룹니다. ERC는 대화 시스템이 사용자의 요청에 효과적으로 대응하기 위해 중요한 역할을 합니다. 대화에서의 감정은 오디오, 시각, 텍스트와 같은 다양한 모달리티의 표현을 통해 식별될 수 있습니다. 그러나 비언어적 모달리티의 감정 인식 기여도가 약하기 때문에 다중 모달 ERC는 항상 어려운 과제로 여겨져 왔습니다.
이 논문에서는 교사 주도 다중 모달 융합 네트워크(TelME)를 제안합니다. TelME는 언어 모델을 교사로 활용하여 비언어적 학생 모델에 지식을 전달함으로써 약한 모달리티의 효과를 최적화합니다. 또한 학생 네트워크가 교사를 지원하는 시프트 융합 접근법을 통해 다중 모달 특징을 결합합니다. TelME는 MELD 데이터셋에서 최신 성능을 달성했으며, 구성 요소의 효과성을 추가 실험을 통해 입증합니다.
Статистика
대화에서 감정을 인식하는 것은 대화 시스템이 사용자의 요청에 효과적으로 대응할 수 있게 해준다.
대화에서의 감정은 오디오, 시각, 텍스트와 같은 다양한 모달리티의 표현을 통해 식별될 수 있다.
비언어적 모달리티의 감정 인식 기여도가 약하기 때문에 다중 모달 ERC는 항상 어려운 과제로 여겨져 왔다.
Цитаты
"Emotion Recognition in Conversation (ERC) plays a crucial role in enabling dialogue systems to effectively respond to user requests."
"The emotions in a conversation can be identified by the representations from various modalities, such as audio, visual, and text."
"However, due to the weak contribution of non-verbal modalities to recognize emotions, multimodal ERC has always been considered a challenging task."