이 연구는 지각 지표인 MS-SSIM과 NLPD를 음악 장르 분류 작업에 적용하였다. 먼저 K-최근접 이웃 분류기를 사용하여 이 지표들을 거리 척도로 사용했을 때의 성능을 확인했다. 그 결과 MSE와 1-MS-SSIM이 NLPD보다 더 좋은 성능을 보였다.
다음으로 오토인코더를 MSE, 1-MS-SSIM, NLPD 손실 함수로 학습시켜 얻은 잠재 특징을 로지스틱 회귀 분류기의 입력으로 사용했다. 그 결과 NLPD와 1-MS-SSIM 모델이 MSE 모델보다 더 높은 가중 F1 점수를 보였다.
이는 지각 지표를 손실 함수로 사용하여 학습한 오토인코더가 장르 분류에 유용한 특징을 학습할 수 있음을 보여준다. 지각 지표는 신호의 구조적 정보를 포착하므로, 이를 활용하면 음악 이해 작업에서 성능 향상을 기대할 수 있다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Tashi Namgya... om arxiv.org 09-26-2024
https://arxiv.org/pdf/2409.17069.pdfDiepere vragen