이 논문은 자동 음성 인식(ASR) 시스템에서 발생하는 개체명 오류 문제를 해결하기 위해 개체 설명을 활용하는 새로운 모델인 DANCER를 제안한다.
주요 내용은 다음과 같다:
ASR 시스템은 도메인 특화 구문, 특히 개체명을 잘못 전사하는 문제가 있다. 이를 해결하기 위해 다양한 접근법이 제안되었지만 각각 한계가 있다.
DANCER는 개체 설명을 활용하여 개체명 간 발생하는 발음 혼동 문제를 완화한다. 이를 위해 개체 설명 증강 마스크드 언어 모델(EDA-MLM)을 도입했다.
EDA-MLM은 밀집 검색 모델과 개체-설명 메모리를 활용하여 새로운 개체에 대해서도 잘 적응할 수 있다.
AISHELL-1과 Homophone 데이터셋에 대한 실험 결과, DANCER가 기존 방식 대비 개체명 문자 오류율을 크게 개선했다. 특히 발음 혼동이 심한 Homophone 데이터셋에서 두드러진 성능 향상을 보였다.
제안 모델은 개체명 목록 규모가 커질수록 발생하는 발음 혼동 문제를 효과적으로 해결할 수 있음을 보였다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yi-Cheng Wan... kl. arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17645.pdfDybere Forespørgsler