이 연구는 아동 음성 인식 기술의 발전 상황을 점검하고자 했다. 2017년 연구에서는 당시 최신 음성 인식 기술로도 아동 음성을 정확히 인식하기 어려웠지만, 최근 OpenAI의 Whisper 모델과 클라우드 기반 솔루션들의 성능이 크게 향상되었다.
Whisper 모델은 기존 솔루션보다 낮은 오류율을 보였고, 60.3%의 문장을 정확히 인식했다. 또한 GPU 기반 로컬 모델은 클라우드 솔루션보다 빠른 응답 속도를 보였다. 마이크 선택도 성능에 영향을 미쳐, 로봇 내장 마이크보다 외부 마이크가 더 나은 결과를 보였다.
이러한 결과는 아동과 로봇의 실시간 음성 상호작용이 가능해졌음을 시사한다. 하지만 성인 수준의 정확도에는 아직 미치지 못하므로, 대화 관리 등 다른 기술과의 결합이 필요할 것으로 보인다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問