이 연구는 음악 태깅 작업을 위한 다양한 자기 지도 학습 방법을 비교하였다. 저자들은 ResNet 모델을 사용하여 대조 학습, BYOL, 클러스터링, Barlow Twins, VICReg 등 5가지 자기 지도 학습 방법을 사용하여 사전 학습을 수행하였다. 그리고 이렇게 생성된 임베딩을 사용하여 5개의 음악 태깅 데이터셋에 대한 성능을 평가하였다.
실험 결과, 대조 학습 방법이 가장 우수한 성능을 보였다. 클러스터링 방법도 좋은 성능을 보였지만, 하이퍼파라미터 튜닝에 민감한 것으로 나타났다. BYOL, Barlow Twins, VICReg 방법은 대조 학습 및 클러스터링 방법에 비해 성능이 낮았다.
또한 제한된 데이터 환경에서의 성능을 평가하였는데, 이 경우에도 대조 학습 방법이 가장 우수한 성능을 보였다. 클러스터링 방법과의 성능 격차는 제한된 데이터 환경에서 더 좁혀졌다.
저자들은 이 연구 결과가 음악 및 오디오 분야의 연구자와 엔지니어들에게 자기 지도 학습 모델 선택에 도움이 될 것이라고 기대한다. 또한 저자들은 사전 학습된 모델과 코드를 공개하여 연구 커뮤니티에 활용될 수 있도록 하였다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések