이 연구는 음악 정보 검색(MIR) 분야에서 음악 장르 식별을 위한 새로운 오디오 표현 방법을 탐구한다. 기존의 Mel 스펙트로그램과 deep VQ 기반의 토큰 및 코드북 표현을 비교한다.
데이터 전처리 단계에서 Mel 스펙트로그램과 deep VQ 표현을 각각 생성한다. 이를 바탕으로 세 가지 트랜스포머 기반 모델(SpectroFormer, TokenFormer, CodebookFormer)을 학습하고 비교한다.
실험 결과, Mel 스펙트로그램을 사용한 SpectroFormer 모델이 가장 우수한 성능을 보였다. 반면 deep VQ 기반 모델들은 기준 성능에 근접한 수준에 그쳤다. 이는 deep VQ 표현이 인간의 청각 특성을 충분히 반영하지 못하기 때문인 것으로 분석된다.
이 연구는 음악 장르 식별 분야에서 Mel 스펙트로그램이 deep VQ 표현보다 더 효과적임을 보여준다. 또한 오디오 표현의 선택이 MIR 작업의 성능에 중요한 영향을 미침을 시사한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문