이 연구는 음악 태깅 및 검색을 위한 새로운 접근법인 음악 단어 임베딩(Musical Word Embedding, MWE)을 제안한다. MWE는 일반 텍스트와 음악 관련 텍스트를 통합하여 학습함으로써 음악 관련 의미를 효과적으로 포착한다. 이를 오디오-단어 결합 임베딩 프레임워크에 통합하여 태그, 아티스트 ID, 트랙 ID 등 다양한 수준의 음악 특정성을 가진 단어를 활용한다. 실험 결과, 특정 단어(예: 트랙 ID)를 사용하면 검색 성능이 향상되고, 일반 단어(예: 태그)를 사용하면 태깅 성능이 향상된다. 이를 절충하기 위해 다양한 수준의 음악 특정성을 가진 단어를 함께 사용하는 다중 프로토타입 학습 방식을 제안한다. 두 개의 데이터셋(Million Song Dataset, MTG-Jamendo)에서 태그 순위 예측, 음악 태깅, 태그 기반 검색, 트랙 기반 검색 등 4가지 작업을 통해 평가한 결과, 제안한 MWE가 기존 단어 임베딩보다 효과적이고 강건한 것으로 나타났다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by SeungHeon Do... في arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13569.pdfاستفسارات أعمق