Grunnleggende konsepter
다양한 악기 소리에 초점을 맞춰 음악 유사성을 계산할 수 있는 단일 네트워크 기반의 다차원 분리된 표현 학습 방법을 제안한다.
Sammendrag
이 논문은 음악 유사성 계산 시 개별 악기 소리에 초점을 맞출 수 있는 방법을 제안한다. 기존 연구에서는 개별 악기 신호를 입력으로 사용하는 네트워크를 별도로 학습했지만, 이는 실제 환경에서 개별 악기 신호를 얻기 어려운 문제가 있었다. 이를 해결하기 위해 저자들은 단일 네트워크에서 혼합 음원을 입력으로 사용하여 각 악기 소리에 초점을 맞출 수 있는 다차원 분리된 표현 공간을 학습하는 방법을 제안했다.
구체적으로 다음과 같은 내용을 다루고 있다:
- 가상의 혼합 음원을 생성하여 각 악기 소리에 초점을 맞춘 트리플렛 손실 함수를 정의
- 각 악기 소리에 해당하는 하위 공간이 해당 악기 특성을 잘 나타내도록 보조 손실 함수 사용
- 실험을 통해 제안 방법이 기존 방법보다 더 정확한 특징 표현을 얻을 수 있으며, 각 하위 공간이 해당 악기 소리의 특성을 잘 나타냄을 확인
- 주관적 평가 실험을 통해 제안 방법이 특히 드럼과 기타 소리에 대해 사용자 인지와 잘 부합함을 검증
Statistikk
드럼 소리가 포함된 혼합 음원과 다른 음원의 드럼 소리가 유사할 때 더 가까운 거리를 가진다.
기타 소리가 포함된 혼합 음원과 다른 음원의 기타 소리가 유사할 때 더 가까운 거리를 가진다.
Sitater
"To achieve a flexible recommendation and retrieval system, it is desirable to calculate music similarity by focusing on multiple partial elements of musical pieces and allowing the users to select the element they want to focus on."
"Using separated instrumental sounds alternatively resulted in less accuracy due to artifacts."