다중 모달 대화 상황에서 일관성 있고 보완적인 의미 특징을 효율적으로 포착하는 것이 다중 모달 대화 감정 인식의 핵심이다.
다중 모달 대화 감정 인식을 위해 텍스트 모달리티를 주요 감정 정보원으로 활용하고, 시각 및 음향 모달리티를 보조 정보원으로 활용하는 교차 모달 융합 네트워크를 제안한다. 또한 감정 변화 모듈을 도입하여 감정 변화 정보를 추출하고 이를 주 과제 학습에 활용함으로써 감정 변화 상황에서의 성능을 향상시킨다.