核心概念
음악 도메인 특화 단어 임베딩을 통해 다양한 음악 관련 의미를 효과적으로 포착하고, 이를 오디오-단어 결합 임베딩 프레임워크에 통합하여 음악 태깅 및 검색 성능을 향상시킬 수 있다.
摘要
이 연구는 음악 태깅 및 검색을 위한 새로운 접근법인 음악 단어 임베딩(Musical Word Embedding, MWE)을 제안한다. MWE는 일반 텍스트와 음악 관련 텍스트를 통합하여 학습함으로써 음악 관련 의미를 효과적으로 포착한다. 이를 오디오-단어 결합 임베딩 프레임워크에 통합하여 태그, 아티스트 ID, 트랙 ID 등 다양한 수준의 음악 특정성을 가진 단어를 활용한다. 실험 결과, 특정 단어(예: 트랙 ID)를 사용하면 검색 성능이 향상되고, 일반 단어(예: 태그)를 사용하면 태깅 성능이 향상된다. 이를 절충하기 위해 다양한 수준의 음악 특정성을 가진 단어를 함께 사용하는 다중 프로토타입 학습 방식을 제안한다. 두 개의 데이터셋(Million Song Dataset, MTG-Jamendo)에서 태그 순위 예측, 음악 태깅, 태그 기반 검색, 트랙 기반 검색 등 4가지 작업을 통해 평가한 결과, 제안한 MWE가 기존 단어 임베딩보다 효과적이고 강건한 것으로 나타났다.
統計資料
음악 태깅 작업에서 제안한 MWE 기반 모델은 기존 분류 모델보다 성능이 우수하다.
제안한 MWE 기반 모델은 태그 감독에서 ROCAUCclip 0.935, ROCAUCtag 0.879를 달성했다.
제안한 MWE 기반 모델은 트랙 ID 감독에서 R@1 47.1%, R@8 81.2%의 성능을 보였다.
제안한 MWE 기반 모델은 제로샷 태깅 작업에서 ROCAUCclip 0.959, ROCAUCtag 0.853의 성능을 보였다.
제안한 MWE 기반 모델은 제로샷 검색 작업에서 장르 ROCAUCtag 0.849, 분위기/주제 ROCAUCtag 0.672의 성능을 보였다.
引述
"음악 태깅은 다양한 음악 의미를 쉽게 확장할 수 있고, 협업 필터링의 문제점을 보완할 수 있는 방법이다."
"일반 말뭉치로 학습한 단어 임베딩은 음악 관련 문맥을 잘 이해하지 못할 수 있다."
"음악 도메인 특화 단어 임베딩은 음악 관련 문맥을 더 잘 포착할 수 있지만, 일반 문맥을 이해하는 데 어려움이 있다."