แนวคิดหลัก
다중 모달 감정 인식 성능 향상을 위해 음향 특징 적응, 시각 특징 정렬, 그리고 다중 모달 특징 융합 기법을 제안한다.
บทคัดย่อ
이 연구는 다중 모달 감정 인식 향상을 위한 3단계 접근법을 제안한다:
- 음향 특징 적응:
- HuBERT-large 모델의 다양한 레이어에서 추출한 특징들의 성능을 실험적으로 평가하여, 감정 인식에 가장 효과적인 중간 레이어를 식별한다.
- 이 중간 레이어에 어댑터를 도입하여 매개변수 효율적 미세 조정 방법을 통해 감정 인식 성능을 최적화한다.
- 시각 특징 정렬:
- 음향 특징 공간에 시각 특징을 정렬하기 위해 대조 학습 기반 사전 학습 방법을 제안한다.
- 이를 통해 시각 모달리티의 감정 표현 능력을 향상시킨다.
- 다중 모달 특징 융합:
- 적응된 음향 특징, 정렬된 시각 특징, 그리고 어휘 특징을 주의 메커니즘을 사용하여 융합한다.
- 이 접근법은 MER2024-SEMI 테스트 세트에서 가중 F1 점수 88.90%를 달성하여 4위를 기록했다.
สถิติ
음향 특징 적응 실험에서 HuBERT-large 모델의 18번째 레이어가 가장 우수한 성능을 보였다.
제안한 매개변수 효율적 미세 조정 방법은 단일 레이어 특징 대비 1.39% 향상된 성능을 달성했다.
시각 특징 정렬 방법은 CLIP-large 특징 대비 3.64% 향상된 성능을 보였다.
다중 모달 융합 결과는 단일 모달리티 성능을 능가하여 88.90%의 가중 F1 점수를 달성했다.
คำพูด
"다중 모달 감정 인식은 다양한 모달리티의 정보를 통합하여 사용자의 감정 상태를 자동으로 식별하고 이해하는 것을 목표로 한다."
"사전 학습된 변환기 모델은 음성 작업에서 두드러진 성과를 거두었으며, 음성 구조, 시간적 의존성, 음향 특징을 포착하는 데 탁월하다."
"시각 모달리티는 얼굴 표정, 몸짓, 제스처와 같은 비언어적 정보를 제공하여 컴퓨터 비전 및 자연어 처리 작업에 필수적이다."