מושגי ליבה
Wav2code는 사전 학습된 깨끗한 음성 표현 코드북을 활용하여 소음 음성으로부터 고품질의 깨끗한 음성 표현을 복원하고, 이를 통해 소음 환경에서 강건한 음성 인식 성능을 달성한다.
תקציר
본 논문은 소음 환경에서 강건한 음성 인식 모델을 제안한다. 기존 연구에서는 음성 향상(SE) 모듈과 자기 지도 학습(SSL) 기법을 결합하여 소음 강건성을 높였지만, 여전히 음성 왜곡 문제가 존재했다. 이를 해결하기 위해 Wav2code 프레임워크를 제안한다.
Wav2code는 다음과 같은 과정으로 구성된다:
- 사전 학습 단계: 깨끗한 음성 데이터를 이용하여 이산 코드북을 학습한다. 코드북은 깨끗한 음성 표현을 저장하는 역할을 한다.
- fine-tuning 단계: 노이즈 음성 데이터를 입력받아 Transformer 기반 코드 예측기를 통해 깨끗한 음성 표현을 복원한다. 이때 사전 학습된 코드북을 활용한다.
- 상호작용 특징 융합 네트워크(IFF-Net): 복원된 깨끗한 표현과 원래 노이즈 음성 표현을 상호작용시켜 충실도와 품질을 모두 고려한 최종 표현을 생성한다.
실험 결과, Wav2code는 기존 방법들에 비해 다양한 노이즈 환경에서 우수한 음성 인식 성능을 보였다. 이는 사전 학습된 깨끗한 음성 표현 코드북과 Transformer 기반 코드 예측기를 통해 효과적으로 노이즈를 제거하고 고품질의 음성 표현을 복원할 수 있기 때문이다.
סטטיסטיקה
노이즈 환경에서 Wav2code의 평균 WER은 21.8%로, 기존 최고 성능 대비 약 1.2% 향상되었다.
깨끗한 환경에서 Wav2code의 WER은 11.4%로, 기존 최고 성능 대비 약 0.8% 향상되었다.
ציטוטים
"Wav2code는 사전 학습된 깨끗한 음성 표현 코드북을 활용하여 노이즈 음성으로부터 고품질의 깨끗한 음성 표현을 복원할 수 있다."
"Wav2code의 상호작용 특징 융합 네트워크는 복원된 깨끗한 표현과 원래 노이즈 음성 표현을 결합하여 충실도와 품질을 모두 고려한 최종 표현을 생성한다."