이 연구는 마스크드 예측 기반 자기지도학습 방법인 마스크드 모델링 듀오(M2D)를 제안하고, 이를 확장한 M2D-X를 통해 다양한 응용 분야에 특화된 표현을 학습할 수 있는 범용 오디오 사전학습 프레임워크를 제시한다.
M2D는 마스크된 입력 신호의 표현을 예측하는 방식으로 학습한다. 기존 방식과 달리 M2D는 마스크된 부분의 표현만을 인코딩하여 학습 신호로 사용함으로써 입력 신호를 더 효과적으로 모델링할 수 있다. 실험 결과 M2D는 범용 오디오 표현 학습에서 최고 수준의 성능을 달성했다.
M2D-X는 M2D에 추가 과제와 배경 잡음을 도입한 프레임워크로, 다양한 응용 분야에 특화된 표현을 학습할 수 있다. 추가 과제는 지도학습, 지식 증류, 정규화 등 다양한 형태로 구성할 수 있어 응용 분야의 요구사항에 맞게 설계할 수 있다. 배경 잡음은 데이터 증강 효과와 탈잡음 과제를 제공하여 소규모 데이터에서도 효과적인 학습을 가능하게 한다.
실험에서 M2D와 M2D-X는 범용 오디오, 음성, 의료 분야 등 다양한 응용 분야에서 최고 수준의 성능을 달성했다. 이를 통해 M2D와 M2D-X가 범용 오디오 사전학습 프레임워크로서의 잠재력을 입증했다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询