Core Concepts
이 연구는 스웨덴어 음성 인식을 위한 강건한 화자 독립 음향 모델을 구축하는 것을 목표로 합니다.
Abstract
이 논문은 스웨덴어 자동 연속 음성 인식을 위한 훈련 가능한 시스템 구축에 관한 내용을 다룹니다. 이 연구의 목적은 스웨덴어 음성을 위한 음향 모델을 구축하는 것입니다. 이를 위해 은닉 마르코프 모델을 사용하고 SpeechDat 데이터베이스를 활용하여 모델 매개변수를 학습합니다. 음향 모델링은 일반적인 음성 인식 응용 프로그램을 가능하게 하는 음소 수준에서 수행되었지만, 모델 평가를 위해 단순화된 과제(숫자 및 자연수 인식)가 고려되었습니다. 문맥 독립 모델과 두 가지 문맥 종속 모델 변형을 포함하여 다양한 유형의 전화 모델이 테스트되었습니다. 또한 시스템 매개변수를 조정하기 위해 많은 실험이 바이그램 언어 모델로 수행되었습니다. 성별, 연령 및 방언이 다른 다양한 화자 하위 집단에 대한 시스템 성능도 조사되었습니다. 결과는 이전 유사 연구와 비교하여 상당한 향상을 보여줍니다.
Stats
화자 성별과 연령에 따른 정확도 및 정답률 결과:
여성 화자의 경우 정확도 및 정답률이 남성 화자보다 높음
중년 화자의 결과가 가장 좋고, 젊은 화자와 고령 화자의 결과가 상대적으로 낮음
방언 지역에 따른 정확도 및 정답률 결과:
베르슬라겐 지역 화자의 결과가 가장 좋고, 남부 지역 화자의 결과가 가장 낮음
동부-중부 스웨덴 지역 화자의 결과가 예상보다 낮음
Quotes
"이 연구는 스웨덴어 자동 연속 음성 인식을 위한 훈련 가능한 시스템 구축에 관한 내용을 다룹니다."
"이 연구의 목적은 스웨덴어 음성을 위한 음향 모델을 구축하는 것입니다."
"결과는 이전 유사 연구와 비교하여 상당한 향상을 보여줍니다."