이 연구는 음악 태깅 및 검색을 위한 새로운 접근법인 음악 단어 임베딩(Musical Word Embedding, MWE)을 제안한다. MWE는 일반 텍스트와 음악 관련 텍스트를 통합하여 학습함으로써 음악 관련 의미를 효과적으로 포착한다. 이를 오디오-단어 결합 임베딩 프레임워크에 통합하여 태그, 아티스트 ID, 트랙 ID 등 다양한 수준의 음악 특정성을 가진 단어를 활용한다. 실험 결과, 특정 단어(예: 트랙 ID)를 사용하면 검색 성능이 향상되고, 일반 단어(예: 태그)를 사용하면 태깅 성능이 향상된다. 이를 절충하기 위해 다양한 수준의 음악 특정성을 가진 단어를 함께 사용하는 다중 프로토타입 학습 방식을 제안한다. 두 개의 데이터셋(Million Song Dataset, MTG-Jamendo)에서 태그 순위 예측, 음악 태깅, 태그 기반 검색, 트랙 기반 검색 등 4가지 작업을 통해 평가한 결과, 제안한 MWE가 기존 단어 임베딩보다 효과적이고 강건한 것으로 나타났다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by SeungHeon Do... ב- arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13569.pdfשאלות מעמיקות