Centrala begrepp
음악의 가사와 오디오 정보를 활용하여 음악의 감정을 효과적으로 분석할 수 있다.
Sammanfattning
이 논문은 음악의 감정 인식을 위해 가사와 오디오 정보를 활용하는 방법을 제안합니다.
먼저 감정 분류 방법론인 범주적 접근과 차원적 접근을 소개합니다. 범주적 접근은 기본 감정 이론에 기반하여 감정을 몇 가지 범주로 구분하는 반면, 차원적 접근은 감정을 2차원 또는 3차원 공간에 매핑합니다.
데이터 세트로는 MOODetector 프로젝트의 VA 데이터 세트와 MIREX-like 데이터 세트를 사용했습니다. 이 데이터 세트에는 오디오와 가사가 모두 포함되어 있으며, 감정 레이블링도 되어 있습니다.
오디오 모델로는 USC SAIL 모델을 사용했고, 가사 모델로는 Hugging Face 플랫폼의 4가지 모델을 평가했습니다. 오디오 모델은 긍정적 감정 인식에 강점이 있었고, 가사 모델 중에서는 특화된 가사 감정 분석 모델이 가장 좋은 성능을 보였습니다.
마지막으로 오디오와 가사 정보를 융합하는 3가지 방법을 시도했습니다. 그 중 오디오 60%, 가사 40%의 가중치 조합이 가장 좋은 성능을 보였습니다. 이를 통해 두 모달리티를 활용하면 개별 모달리티보다 향상된 감정 인식 성능을 달성할 수 있음을 확인했습니다.
Statistik
오디오 모델은 긍정적 감정 인식에 강점이 있었고, 부정적 감정 인식에는 약점이 있었다.
가사 모델 중 특화된 가사 감정 분석 모델이 가장 좋은 성능을 보였다.
오디오와 가사 정보를 60:40의 가중치로 융합한 모델이 가장 좋은 성능을 보였다.
Citat
"Music is often described as the language of emotions, and numerous studies have confirmed that listeners perceive music as an expression of feelings."
"The 'Engaging with Music 2022' report by the International Federation of the Phonographic Industry revealed that 69% of respondents consider music important for their mental health."
"Surprisingly, the best lyrics model surpasses the results of the audio model, confirming the relevance of lyrics for the valence recognition task."