מושגי ליבה
메인스테이지 댄스 음악 하위 장르 분류를 위한 새로운 벤치마크 데이터셋과 기준 모델을 제시한다.
תקציר
이 연구는 메인스테이지 댄스 음악 하위 장르 분류를 위한 새로운 벤치마크를 제안한다. 기존 데이터셋의 한계를 극복하기 위해 더 많은 하위 장르와 연속적인 소프트 라벨링 기법을 도입했다. 또한 기존 범용 모델보다 우수한 성능의 기준 모델을 제시했다. 이를 통해 음악 추천, DJ 세트 큐레이션, 멀티미디어 인터랙션 등의 응용 분야에 활용할 수 있다.
데이터셋 구축 단계에서는 다음과 같은 과정을 거쳤다:
- 1,000개 이상의 트랙을 유명 레코드 레이블에서 수집했다.
- 8개의 하위 장르로 구성된 라벨을 수동으로 부여했다.
- 트랙의 드롭 부분을 추출하고 7.5초 길이의 클립으로 샘플링했다.
- Mel-spectrogram, CQT-chromagram, VQT-chromagram 등의 특징을 추출했다.
- 소프트 라벨링 기법을 적용해 트랙의 다중 장르 특성을 반영했다.
모델 개발 단계에서는 다음과 같은 접근법을 사용했다:
- CNN과 Vision Transformer 기반의 모델 아키텍처를 제안했다.
- 특징 추출 모듈과 Transformer 인코더 모듈로 구성된 모델을 개발했다.
- 소프트 라벨링 데이터로 학습한 모델이 기존 0/1 라벨 모델보다 우수한 성능을 보였다.
- 제안 모델이 범용 언어 모델인 Qwen-Audio 시리즈보다 뛰어난 성능을 달성했다.
이 연구는 메인스테이지 댄스 음악 하위 장르 분류 분야에 기여할 수 있는 새로운 벤치마크를 제공한다. 향후 연구에서는 데이터셋 규모 확장, 멀티모달 언어 모델 개발 등을 통해 이 분야를 더욱 발전시킬 수 있을 것이다.
סטטיסטיקה
메인스테이지 댄스 음악 하위 장르 분류를 위한 데이터셋에는 총 1,035개의 트랙이 포함되어 있다.
샘플링 레이트는 44,100Hz이며, BPM 범위는 115-130이다.
ציטוטים
"우리의 데이터셋은 최근 메인스테이지 라이브 세트를 포괄할 수 있도록 하위 장르 수를 확장했다."
"소프트 라벨링 기법을 사용하여 트랙의 다중 장르 특성을 보다 자세히 표현할 수 있다."
"제안 모델은 범용 언어 모델인 Qwen-Audio 시리즈보다 뛰어난 성능을 보였다."