본 논문은 소음 환경에서 강건한 음성 인식 모델을 제안한다. 기존 연구에서는 음성 향상(SE) 모듈과 자기 지도 학습(SSL) 기법을 결합하여 소음 강건성을 높였지만, 여전히 음성 왜곡 문제가 존재했다. 이를 해결하기 위해 Wav2code 프레임워크를 제안한다.
Wav2code는 다음과 같은 과정으로 구성된다:
실험 결과, Wav2code는 기존 방법들에 비해 다양한 노이즈 환경에서 우수한 음성 인식 성능을 보였다. 이는 사전 학습된 깨끗한 음성 표현 코드북과 Transformer 기반 코드 예측기를 통해 효과적으로 노이즈를 제거하고 고품질의 음성 표현을 복원할 수 있기 때문이다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yuchen Hu,Ch... : arxiv.org 04-19-2024
https://arxiv.org/pdf/2304.04974.pdfDaha Derin Sorular