Core Concepts
음악 클립의 감정을 시간에 따라 예측하고 감정 값의 연속성을 보장하는 모델을 개발하여 음악 치료 및 스트리밍 서비스에 활용할 수 있다.
Abstract
이 연구는 음악에서의 감정 분석을 탐구하고 적용하는 것을 목표로 합니다. 일반적으로 감정 분석은 텍스트 처리 분야에서 많이 연구되어 왔지만, 사람들은 텍스트보다 음악을 통해 더 깊은 감정을 표현합니다. 따라서 음악 감정을 해석할 수 있는 컴퓨터 모델을 개발하는 것은 중요한 과제입니다.
이 연구에서는 두 가지 개별 작업을 다루었습니다:
음악 클립의 감정을 시간에 따라 예측하기
음악의 감정 값 변화를 연속적으로 유지하기 위해 다음 감정 값을 예측하기
Emotions in Music Database의 데이터를 활용하여 두 작업 모두에 대한 모델을 학습했습니다. 이 데이터는 Free Music Archive에서 선별된 음악 클립들을 Russell의 감정 모델에 따라 자원봉사자들이 평가한 것입니다.
첫 번째 작업에서는 LSTM 모델을 사용하여 음악 클립의 멜 스펙트로그램을 입력받아 arousal과 valence 값을 예측했습니다. 모델의 성능은 인간 평가의 변동성 수준과 유사한 것으로 나타났습니다.
두 번째 작업에서는 LSTM 모델과 선형 회귀 모델을 사용하여 10개의 arousal과 valence 값 시퀀스에서 다음 값을 예측했습니다. LSTM 모델의 성능이 더 우수했지만, 선형 회귀 모델도 전반적인 추세를 잘 모델링할 수 있었습니다.
이러한 모델은 음악 치료 분야와 스트리밍 서비스의 큐레이션 기능에 활용될 수 있습니다. 향후 연구에서는 모델 성능 향상을 위한 하이퍼파라미터 최적화, 입력 형식 개선, 노이즈 제거 등의 방법을 시도할 수 있습니다. 또한 오픈소스 라이브러리로 구현하여 실제 응용 프로그램에 적용할 수 있을 것입니다.
Stats
음악 클립의 arousal과 valence 값은 평균 0.35의 표준편차를 가집니다.
선형 회귀 모델은 전반적인 추세를 잘 모델링할 수 있지만, 정확한 값 예측에는 한계가 있습니다.
Quotes
"음악은 심리적 효과뿐만 아니라 다발성 경화증, 파킨슨병 등 신경학적 장애에도 영향을 미치는 것으로 알려져 있습니다."
"음악 큐레이션 알고리즘과 함께 이 모델을 구현하면 사용자에게 향상된 경험을 제공할 수 있습니다."