핵심 개념
다중 모달 대화 감정 인식을 위해 텍스트 모달리티를 주요 감정 정보원으로 활용하고, 시각 및 음향 모달리티를 보조 정보원으로 활용하는 교차 모달 융합 네트워크를 제안한다. 또한 감정 변화 모듈을 도입하여 감정 변화 정보를 추출하고 이를 주 과제 학습에 활용함으로써 감정 변화 상황에서의 성능을 향상시킨다.
초록
이 논문은 다중 모달 대화 감정 인식(ERC) 문제를 다루고 있다. 기존 접근법들은 각 모달리티의 감정 정보량을 구분하지 않고 동등하게 취급하여 다중 모달 보완 정보를 충분히 추출하지 못하는 문제가 있었다. 또한 대부분의 다중 모달 ERC 모델들이 감정 변화 정보를 무시하고 문맥 정보에 과도하게 집중하여 감정 변화 상황에서 감정 인식에 실패하는 문제가 있었다.
이를 해결하기 위해 저자들은 CFN-ESA라는 새로운 네트워크를 제안했다. CFN-ESA는 세 가지 주요 구성 요소로 이루어져 있다:
- 단일 모달리티 인코더(RUME): 각 모달리티의 문맥 감정 단서를 추출하고 모달리티 간 데이터 분포 차이를 줄인다.
- 교차 모달리티 인코더(ACME): 텍스트 모달리티를 주요 감정 정보원으로 간주하고 시각 및 음향 모달리티를 보조 정보원으로 활용하여 다중 모달 상호작용을 수행한다.
- 감정 변화 모듈(LESM): 감정 변화 정보를 모델링하고 이를 주 과제 학습에 활용하여 감정 변화 상황에서의 성능을 향상시킨다.
실험 결과, CFN-ESA가 기존 최신 모델들을 크게 능가하는 성능을 보였다. 이는 제안된 접근법이 다중 모달 보완 정보를 효과적으로 활용하고 감정 변화 정보를 적절히 모델링할 수 있음을 보여준다.
통계
텍스트 모달리티가 감정 표현에 더 많은 정보를 포함하고 있다.
시각 및 음향 모달리티는 텍스트 모달리티를 보완하는 역할을 한다.
감정 변화 정보를 모델링하는 것이 감정 인식 성능 향상에 도움이 된다.
인용구
"기존 접근법들은 각 모달리티의 감정 정보량을 구분하지 않고 동등하게 취급하여 다중 모달 보완 정보를 충분히 추출하지 못하는 문제가 있었다."
"대부분의 다중 모달 ERC 모델들이 감정 변화 정보를 무시하고 문맥 정보에 과도하게 집중하여 감정 변화 상황에서 감정 인식에 실패하는 문제가 있었다."