이 논문은 브라질 포르투갈어 음성 데이터셋인 NURC-SP Audio Corpus를 소개하고 있다. 이 데이터셋은 총 239.30시간의 자발적 발화 음성 데이터를 포함하고 있으며, 이는 상파울루 지역의 발화 특성을 반영하고 있다.
데이터셋 구축 과정에서는 자동 전사 결과를 토대로 원어민 화자들이 수동으로 전사를 검수하였다. 이를 통해 음성 데이터의 품질을 높이고자 하였다.
이 데이터셋을 활용하여 4가지 자동 음성 인식 모델을 평가하였다. Wav2Vec2와 Distil-Whisper 모델을 fine-tuning하여 성능을 측정한 결과, Distil-Whisper 모델이 가장 우수한 성능을 보였다. 특히 Distil-Whisper 모델을 NURC-SP 데이터셋으로 fine-tuning한 경우 WER 24.22%를 달성하였다. 이는 Wav2Vec2 모델 대비 약 10%p 향상된 결과이다.
이 연구를 통해 상파울루 지역의 자발적 발화 데이터셋이 자동 음성 인식 모델 개발에 유용하게 활용될 수 있음을 보여주었다. 또한 Distil-Whisper 모델이 저/중 자원 언어에서도 우수한 성능을 보일 수 있음을 확인하였다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor