Concepts de base
감정 정보의 조기 통합 학습은 다중 모달 모델의 성능을 향상시킨다.
Résumé
이 논문은 MER2024 대회의 감정 인식 하위 과제에 대한 저자들의 솔루션을 제시한다.
첫째, 대규모 데이터 사전 학습과 미세 조정을 기반으로 한 Emotion ViT를 개발하여 감정 인식 작업에 적합한 비전 특징 추출기를 만들었다.
둘째, 오디오와 텍스트 간의 모달리티 경쟁 문제를 해결하기 위해 대규모 언어 모델을 기반으로 한 조기 융합 전략을 채택하여 오디오와 텍스트의 통합 학습을 수행했다.
셋째, 데이터 부족과 클래스 불균형 문제를 해결하기 위해 다중 모델 투표를 통한 데이터 마이닝 기법을 사용했다.
넷째, 오디오 특징의 품질을 높이기 위해 음성 소스 분리 기법을 도입하여 노이즈를 제거했다.
이러한 전략을 통해 저자들의 모델은 MER2024-SEMI와 MER2024-NOISE 두 부문에서 2위를 차지했다.
Stats
사전 학습 데이터셋에는 약 900만 장의 이미지가 포함되어 있다.
MER2024 데이터셋에는 5,030개의 레이블링된 데이터와 115,595개의 무레이블 데이터가 포함되어 있다.
오디오 노이즈 제거를 위해 MUSAN 데이터셋과 RIR 데이터셋을 사용했다.
Citations
"감정 정보의 조기 통합 학습은 다중 모달 모델의 성능을 향상시킨다."
"데이터 부족과 클래스 불균형 문제를 해결하기 위해 다중 모델 투표를 통한 데이터 마이닝 기법을 사용했다."
"오디오 특징의 품질을 높이기 위해 음성 소스 분리 기법을 도입하여 노이즈를 제거했다."