이 논문은 자동 음성 인식(ASR) 모델의 성능이 특정 음향 환경이나 화자 집단이 훈련 데이터에 충분히 포함되지 않은 경우 크게 저하되는 문제를 다룹니다. 특히 억양이 있는 음성 데이터에 대한 ASR 성능 저하에 초점을 맞추고 있습니다.
이를 해결하기 위해 저자들은 제로 샷 텍스트 투 스피치(ZS-TTS) 기술을 활용하여 억양 음성 데이터를 합성적으로 증강하는 방법을 제안합니다. ZS-TTS 모델은 화자의 음향 특성을 빠르게 학습할 수 있어 제한된 억양 음성 데이터로도 다양한 합성 데이터를 생성할 수 있습니다.
실험 결과, 실제 억양 음성 데이터와 합성 데이터를 혼합하여 ASR 모델을 학습시키면 실제 데이터만으로 학습한 경우에 비해 최대 14%의 단어 오류율 감소를 달성할 수 있었습니다. 또한 실제 데이터가 전혀 없는 경우에도 ZS-TTS 모델로 생성한 합성 데이터만으로 ASR 성능을 향상시킬 수 있었습니다.
다중 억양 실험에서는 Interspeech 2020 데이터셋을 사용했지만, 데이터 품질 문제로 인해 단일 억양 실험만큼의 성능 향상을 달성하지 못했습니다. 향후 연구에서는 이러한 데이터 품질 문제를 해결하고 다양한 억양에 대한 ZS-TTS 모델의 성능을 개선하는 것이 필요할 것으로 보입니다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania