이 논문은 오디오 표현 학습(ARL) 모델의 성능을 다양한 오디오 분류 도메인에서 종합적으로 평가하기 위한 ARCH 벤치마크를 소개한다. ARCH는 음향 이벤트, 음악, 음성 등 12개의 공개 데이터셋을 포함하며, 다양한 규모의 사전 학습 SSL 모델을 평가할 수 있다.
논문에서는 ARCH를 통해 Wav2Vec 2.0, WavLM, HuBERT, data2vec, XLS-R 등 최신 SSL 모델들의 성능을 비교 분석하였다. 그 결과, 음성 데이터로 사전 학습된 모델들도 비음성 오디오 도메인에서 일정 수준의 성능을 보였지만, 오디오셋 데이터로 사전 학습된 모델들이 전반적으로 더 우수한 성능을 달성했다. 이는 다양한 오디오 데이터로 사전 학습하는 것이 일반적인 오디오 표현 학습에 중요함을 시사한다.
또한 모델 규모를 확장할수록 성능이 지속적으로 향상되었으며, 특히 HuBERT 모델이 전반적으로 우수한 성능을 보였다. 이는 이산 목표를 활용한 사전 학습 방식의 장점을 보여준다.
ARCH는 오디오 표현 학습 모델의 종합적인 평가와 비교를 가능하게 하며, 새로운 데이터셋과 모델을 쉽게 통합할 수 있는 확장 가능한 프레임워크이다. 또한 비음성 오디오 도메인을 위한 새로운 사전 학습 모델도 공개하여, 오디오 표현 학습 연구의 발전에 기여한다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究