이 논문은 대규모 음성-텍스트 기반 언어 모델을 활용하여 음성 인식 성능을 향상시키는 방법을 제안한다.
첫째, 대규모 음성 및 텍스트 데이터를 활용하여 음성-텍스트 기반 언어 모델을 사전 학습한다. 이 모델은 음성 토큰과 텍스트 토큰을 모두 처리할 수 있다.
둘째, 이 음성-텍스트 기반 언어 모델을 활용하여 음성 인식 결과를 재채점한다. 음성 토큰과 텍스트 토큰을 결합하여 재채점 점수를 계산함으로써, 음성 정보와 텍스트 정보를 모두 활용할 수 있다.
셋째, 최소 단어 오류율(MWER) 기준으로 음성-텍스트 기반 언어 모델을 추가로 fine-tuning하여 재채점 성능을 더욱 향상시킨다.
실험 결과, 제안 기법은 기존 텍스트 기반 언어 모델 대비 최대 20%의 상대적 성능 향상을 보였다. 또한 음성-텍스트 기반 모델이 텍스트 기반 모델보다 도메인 외 데이터에서 더 강건한 성능을 보였다. 이는 음성 정보와 텍스트 정보 간 cross-modal 지식 전이 효과 때문인 것으로 분석된다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問