核心概念
다양한 음성 데이터 증강 기법을 활용하여 HuBERT와 wav2vec 모델의 음소 인식 및 자동 음성 인식 성능을 향상시킬 수 있다.
摘要
이 연구에서는 S3PRL 도구를 사용하여 다양한 음성 데이터 증강 기법의 효과를 비교하였다.
- 음소 인식 (PR) 및 자동 음성 인식 (ASR) 작업에 대해 HuBERT와 wav2vec 모델을 실험하였다.
- SpecAugment, 가우시안 노이즈, 속도 변화 등의 증강 기법을 적용하여 모델을 학습하고 평가하였다.
- SpecAugment는 원본 데이터셋에서도 성능 향상을 보였으며, 가우시안 노이즈와 속도 변화 증강 데이터로 학습한 모델은 해당 증강 데이터셋에서 더 강건한 성능을 보였다.
- 가우시안 노이즈 증강 데이터로 학습한 HuBERT와 wav2vec 모델이 각각 PR 작업에서 13.10%, 70.67%의 최저 PER을 달성하였다.
- 속도 변화 증강 데이터로 학습한 HuBERT와 wav2vec 모델이 각각 ASR 작업에서 21.63%, 34.22%의 최저 WER을 달성하였다.
統計資料
HuBERT-Gaussian-Noise 모델은 가우시안 노이즈 테스트 데이터셋에서 PER이 13.10%로 가장 낮았다.
wav2vec-Gaussian-Noise 모델은 가우시안 노이즈 테스트 데이터셋에서 PER이 70.67%로 가장 낮았다.
HuBERT-Speed-Perturbation 모델은 속도 변화 테스트 데이터셋에서 WER이 21.63%로 가장 낮았다.
wav2vec-Speed-Perturbation 모델은 속도 변화 테스트 데이터셋에서 WER이 34.22%로 가장 낮았다.