본 연구는 비디오 프레임과 오디오 세그먼트의 특징을 추출하고, 시공간적 상관관계와 장기 의존성을 학습하는 다중 모달 융합 모델을 제안한다. 이를 통해 실시간 정서 상태 추정의 정확도와 일반화 성능을 향상시킨다.