이 연구에서는 TalkBank라는 다국어 대화형 데이터셋을 소개하고, 이를 활용하여 다양한 최신 음성 인식 모델의 성능을 평가하였다. 실험 결과, 기존의 표준 벤치마크 데이터셋에서 우수한 성능을 보이던 모델들이 TalkBank 데이터셋에서는 큰 성능 저하를 보였다. 이는 실제 대화 환경에서 자주 나타나는 비유창성, 다양한 억양 등의 요소들이 현재의 음성 인식 모델에 큰 도전과제로 작용하고 있음을 보여준다. 또한 이러한 대화형 요소와 모델의 성능 간 상관관계를 분석한 결과, 비언어적 표현, 특수 문자 등이 모델 성능에 큰 영향을 미치는 것으로 나타났다. 이를 통해 실제 대화 상황을 잘 반영할 수 있는 새로운 벤치마크 데이터셋의 필요성이 강조되었다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問