Core Concepts
본 연구는 한국 아동의 말소리 장애 발음을 진단하기 위해 수작업 전사를 대체할 수 있는 자동 음성 인식(ASR) 모델을 개발하였다. 소량의 데이터로도 90% 수준의 높은 정확도로 아동의 발음 오류를 인식할 수 있음을 보여주었다.
Abstract
본 연구는 한국 아동의 말소리 장애(SSD) 발음을 진단하기 위한 자동 음성 인식(ASR) 모델을 개발하였다. 일반적인 ASR 모델은 실제 단어로 입력 음성을 예측하므로 SSD 아동의 발음 평가에 적합하지 않다. 따라서 연구진은 wav2vec2.0 XLS-R 모델을 미세 조정하여 실제 발음 그대로 인식하도록 하였다.
데이터는 137명의 SSD 아동이 73개의 한국어 단어를 발음한 것으로, 훈련-검증-테스트 세트로 나누었다. 약 1.5시간의 데이터로 미세 조정한 모델은 인간 평가와 약 90% 수준의 일치도를 보였다. 모델은 여전히 불명확한 발음 인식에 어려움이 있지만, 이 연구는 ASR 모델이 임상 현장의 복잡한 발음 오류 진단 절차를 간소화할 수 있음을 보여준다.
Stats
발음이 부정확한 137명의 아동이 73개의 한국어 단어를 발음한 데이터를 사용하였다.
데이터셋은 훈련 95명, 검증 12명, 테스트 30명으로 구성되었다.
총 데이터 길이는 약 2.29시간이다.
Quotes
"일반적인 ASR 모델은 실제 단어로 입력 음성을 예측하므로 SSD 아동의 발음 평가에 적합하지 않다."
"약 1.5시간의 데이터로 미세 조정한 모델은 인간 평가와 약 90% 수준의 일치도를 보였다."