이 연구는 말더듬 음성 인식의 정확도 향상을 위해 wav2vec 2.0 모델을 활용하였다. 먼저 말더듬 음성 데이터셋인 FluencyBank를 사용하여 모델을 미세 조정하였다. 이를 통해 말더듬 음성에 대한 단어 오류율(WER)이 15% 감소하고 의미 유사도(FBERT)가 25% 향상되었다.
또한 데이터 증강 기법을 도입하여 말더듬 음성의 다양성을 확장하였다. 이 기법은 단어 반복, 구 반복, 간투사 등 다양한 유형의 비유창성을 무작위로 삽입하여 학습 데이터를 풍부하게 만들었다. 데이터 증강을 통해 추가적인 WER 감소와 FBERT 향상을 달성할 수 있었다.
실험 결과, 말더듬 음성에 대한 정확도 편향이 완화되었으며, 다양한 화자와 비유창성 유형에 걸쳐 전반적인 성능 향상을 확인할 수 있었다. 이는 말더듬 사용자를 위한 접근성 높은 음성 인식 기술 개발에 기여할 것으로 기대된다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania