이 논문은 MER2024 대회의 감정 인식 하위 과제에 대한 저자들의 솔루션을 제시한다.
첫째, 대규모 데이터 사전 학습과 미세 조정을 기반으로 한 Emotion ViT를 개발하여 감정 인식 작업에 적합한 비전 특징 추출기를 만들었다.
둘째, 오디오와 텍스트 간의 모달리티 경쟁 문제를 해결하기 위해 대규모 언어 모델을 기반으로 한 조기 융합 전략을 채택하여 오디오와 텍스트의 통합 학습을 수행했다.
셋째, 데이터 부족과 클래스 불균형 문제를 해결하기 위해 다중 모델 투표를 통한 데이터 마이닝 기법을 사용했다.
넷째, 오디오 특징의 품질을 높이기 위해 음성 소스 분리 기법을 도입하여 노이즈를 제거했다.
이러한 전략을 통해 저자들의 모델은 MER2024-SEMI와 MER2024-NOISE 두 부문에서 2위를 차지했다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Mengying Ge,... о arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.18971.pdfГлибші Запити