이 논문은 음성 신호 처리 분야에서 효율적이고 강인한 음성 특징 추출 방법을 제안한다. 주요 내용은 다음과 같다:
지식 증류 과정에 특징 제거 단계를 추가하여 잡음에 강인한 특징을 학습하도록 한다. 이를 통해 학생 모델이 잡음 신호로부터 음성 정보를 효과적으로 분리할 수 있게 된다.
추가적으로 음성 향상 헤드를 학생 모델에 도입하여 잡음 제거 능력을 향상시킨다. 이를 통해 학생 모델이 깨끗한 음성 신호를 복원할 수 있게 된다.
제안 방법인 RobustDistiller를 Wav2Vec 2.0, HuBERT, WavLM, Robust HuBERT 등 다양한 음성 표현 모델에 적용하여 성능을 평가한다. 실험 결과, 제안 방법은 잡음 환경에서도 우수한 성능을 보이며 기존 압축 모델들을 능가하는 것으로 나타났다.
또한 RobustDistiller는 기존 증류 기반 압축 기법에 추가로 적용할 수 있음을 보였다. 이를 통해 압축과 강인성을 동시에 달성할 수 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문