PHemoNet은 생리학적 신호로부터 감정을 인식하기 위한 완전 초복소 네트워크이다. 각 입력 신호는 해당 신호의 고유 도메인에서 정의된 인코더에 의해 처리되며, 이를 통해 모달리티별 임베딩을 학습한다. 그리고 개선된 초복소 융합 모듈은 이러한 단일 모달리티 임베딩을 결합하여 최종 분류 출력을 생성한다.
감정 정보의 조기 통합 학습은 다중 모달 모델의 성능을 향상시킨다.
본 연구는 불완전한 데이터 환경에서 강인한 다중 모달 표현을 학습하여 다중 모달 감정 인식 성능을 향상시키는 것을 목표로 한다.
본 연구는 전기뇌파(EEG), 심전도(ECG), 피부전도도(GSR) 및 눈 데이터와 같은 다중 모달 생리학적 신호를 활용하여 감정 인식을 수행하는 계층적 초복소수 신경망 모델을 제안한다. 이 모델은 각 모달리티 내의 채널 간 상관관계를 학습하는 인코더와 모달리티 간 상관관계를 학습하는 초복소수 융합 모듈로 구성된다.
다중 모달 감정 인식 성능 향상을 위해 음향 특징 적응, 시각 특징 정렬, 그리고 다중 모달 특징 융합 기법을 제안한다.
다양한 모달리티(텍스트, 비디오, 오디오)의 특징을 효과적으로 추출하고 융합하여 감정 인식 성능을 향상시키는 방법을 제안한다.
MERBench는 다양한 모달리티를 활용한 감정 인식 기술을 종합적으로 평가하기 위한 통합 벤치마크이다. 특징 선택, 다중 모달 융합, 크로스 코퍼스 성능, 강건성 분석 등 다양한 측면에서 감정 인식 기술을 평가하고 분석한다.
다중 모달 감정 인식을 위한 새로운 접근 방식인 MultiDAG+CL의 핵심은 커리큘럼 학습과 유향 비순환 그래프를 결합하여 감정 변화와 데이터 불균형 문제를 해결하고 모델의 성능을 향상시키는 것이다.