다중 모달 정보를 활용하여 강력한 모달리티의 기여도를 강조하고 약한 모달리티의 효과를 향상시키는 방법을 제안한다.
문맥 정보를 활용하여 효율적이고 경량화된 모델로 대화에서의 감정 인식 성능을 향상시킬 수 있다.
본 연구는 대화에서의 감정 인식 문제를 해결하기 위해 Mamba 네트워크와 다중 모달 감정 대조 손실(MEC-Loss)을 활용한 MaTAV 프레임워크를 제안한다. MaTAV는 다양한 모달리티 간 정렬을 보장하고 긴 대화 맥락을 효과적으로 포착하여 기존 방법들을 크게 능가하는 성능을 보인다.