이 논문은 음악의 감정 인식을 위해 가사와 오디오 정보를 활용하는 방법을 제안합니다.
먼저 감정 분류 방법론인 범주적 접근과 차원적 접근을 소개합니다. 범주적 접근은 기본 감정 이론에 기반하여 감정을 몇 가지 범주로 구분하는 반면, 차원적 접근은 감정을 2차원 또는 3차원 공간에 매핑합니다.
데이터 세트로는 MOODetector 프로젝트의 VA 데이터 세트와 MIREX-like 데이터 세트를 사용했습니다. 이 데이터 세트에는 오디오와 가사가 모두 포함되어 있으며, 감정 레이블링도 되어 있습니다.
오디오 모델로는 USC SAIL 모델을 사용했고, 가사 모델로는 Hugging Face 플랫폼의 4가지 모델을 평가했습니다. 오디오 모델은 긍정적 감정 인식에 강점이 있었고, 가사 모델 중에서는 특화된 가사 감정 분석 모델이 가장 좋은 성능을 보였습니다.
마지막으로 오디오와 가사 정보를 융합하는 3가지 방법을 시도했습니다. 그 중 오디오 60%, 가사 40%의 가중치 조합이 가장 좋은 성능을 보였습니다. 이를 통해 두 모달리티를 활용하면 개별 모달리티보다 향상된 감정 인식 성능을 달성할 수 있음을 확인했습니다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Lea Schaab,A... في arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01988.pdfاستفسارات أعمق