본 연구는 얼굴 감정 인식, 음악 추천, 설명 가능한 AI 기술을 통합하여 사용자 경험을 향상시키는 포괄적인 접근법을 제안합니다.
대규모 언어 모델은 감정 인식과 같은 주관적인 작업에서 사전 지식에 강하게 의존하여 성능이 제한되며, 이러한 현상은 모델 규모가 커질수록 더 심해진다.
본 논문은 기본 감정 인식 모델을 활용하여 복합 감정 표현을 인식하는 새로운 오디오-비주얼 방법을 제안한다. 이 방법은 모달리티 간 확률 융합과 규칙 기반 의사결정을 통해 복합 감정 표현을 예측한다.
SUN 팀은 ABAW 2024 대회에서 오디오-비주얼 감정 강도 추정 및 표현 인식 문제를 해결하기 위한 딥러닝 기반 접근법을 제안했다.
본 연구는 비디오 프레임과 오디오 세그먼트의 특징을 추출하고, 시공간적 상관관계와 장기 의존성을 학습하는 다중 모달 융합 모델을 제안한다. 이를 통해 실시간 정서 상태 추정의 정확도와 일반화 성능을 향상시킨다.
GPT-4V는 다양한 감정 인식 과제에서 강력한 시각적 이해 능력을 보여주지만, 전문 지식이 필요한 미세 표정 인식에서는 한계를 보인다. 또한 다중 모달리티 융합과 시간적 정보 활용에서도 일정 수준의 성능을 보인다.
마스크드 오토인코더를 통한 사전 학습과 시간 합성곱 신경망 및 트랜스포머 모듈을 활용하여 연속 감정 인식 성능을 향상시킨다.
맥락 디바이싱을 통해 감정 인식의 편향을 극복하는 것이 주요 메시지입니다.
다중 모달 감정 인식을 위한 새로운 접근 방식인 MultiDAG+CL의 핵심은 커리큘럼 학습과 유향 비순환 그래프를 결합하여 감정 변화와 데이터 불균형 문제를 해결하고 모델의 성능을 향상시키는 것이다.