Centrala begrepp
본 연구는 지식 증류와 다중 작업 학습을 통해 소음에 강인한 음성 특징을 추출하는 새로운 방법을 제안한다.
Sammanfattning
본 연구는 자기 지도 학습 기반 음성 표현 학습 기술의 두 가지 주요 문제를 해결하고자 한다:
모델 크기가 크여 엣지 응용 프로그램에 적용하기 어려운 문제
소음 및 잔향과 같은 악화 요인에 취약한 문제
이를 위해 RobustDistiller라는 새로운 지식 증류 메커니즘을 제안한다:
증류 과정에서 소음 제거 목표를 추가하여 소음 불변 표현을 학습하도록 한다.
마지막 은닉 상태를 이용해 깨끗한 음성 신호를 복원하는 다중 작업 학습 접근법을 적용한다.
제안된 방법은 12개의 다운스트림 작업에서 평가되었으며, 소음 유형 및 소음/잔향 수준에 관계없이 여러 기준점을 능가하는 결과를 보였다.
실험 결과, 제안된 학생 모델(23M 매개변수)이 교사 모델(95M 매개변수)과 유사한 성능을 달성할 수 있음을 보였다.
제안된 방법은 다른 증류 방법론(예: DPWavLM)에도 적용될 수 있음을 보였다.
Statistik
소음 수준이 -5~20dB 범위인 경우 음성 신호의 신호 대 잡음비가 크게 저하된다.
잔향 환경에서는 음성 신호의 품질과 명료도가 크게 저하된다.
소음과 잔향이 동시에 존재하는 경우 음성 신호의 왜곡이 가장 심각하다.
Citat
"자기 지도 학습 기반 음성 표현 학습은 고차원 데이터에서 의미 있고 분리된 보편적 특징을 학습할 수 있게 해준다."
"보편적 음성 표현은 엣지 응용 프로그램에서 중요할 수 있지만, 성능이 크게 저하되는 문제가 있다."
"본 연구는 모델 압축과 환경 강인성을 결합한 시스템을 성공적으로 개발했다."