본 연구는 자기 지도 학습 기반 음성 표현 학습 기술의 두 가지 주요 문제를 해결하고자 한다:
이를 위해 RobustDistiller라는 새로운 지식 증류 메커니즘을 제안한다:
제안된 방법은 12개의 다운스트림 작업에서 평가되었으며, 소음 유형 및 소음/잔향 수준에 관계없이 여러 기준점을 능가하는 결과를 보였다.
실험 결과, 제안된 학생 모델(23M 매개변수)이 교사 모델(95M 매개변수)과 유사한 성능을 달성할 수 있음을 보였다.
제안된 방법은 다른 증류 방법론(예: DPWavLM)에도 적용될 수 있음을 보였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문