Core Concepts
이 논문은 특정 자동 음성 인식 시스템에 의존하지 않는 단어 오류율 추정 방법을 제안한다.
Abstract
이 논문은 자동 음성 인식 시스템 출력의 품질을 추정하는 방법을 제안한다. 기존의 단어 오류율 추정 모델은 특정 자동 음성 인식 시스템에 의존적이었다. 이 논문에서는 데이터 증강 기법을 사용하여 시스템 독립적인 단어 오류율 추정 모델을 개발했다.
데이터 증강 기법에는 세 가지 전략이 사용되었다:
무작위 선택: 단어 삽입, 삭제, 대체를 무작위로 수행
음성학적 유사성: 대체 단어를 음성학적으로 유사한 단어 중에서 선택
언어 모델 확률: 삽입 위치에 언어 모델 확률이 높은 단어 삽입
제안된 방법은 기존 시스템 의존적 모델과 유사한 성능을 보였으며, 도메인 외 데이터에서 더 나은 성능을 보였다. 특히 훈련 데이터의 단어 오류율이 평가 데이터와 유사할 때 성능이 향상되었다.
Stats
제안된 SIWE8 모델은 Fe-WER1 모델에 비해 평균 RMSE가 0.0056 낮고, 평균 PCC가 0.0289 높았다.
SIWE7 모델은 AMI 및 SWB/CH 평가 데이터에서 Fe-WER 모델들보다 RMSE와 PCC가 더 좋았다.
SIWE7 모델의 성능은 훈련 데이터의 단어 오류율 범위가 평가 데이터와 유사할 때 가장 좋았다.
Quotes
"이 논문은 자동 음성 인식 시스템 출력의 품질을 추정하는 방법을 제안한다."
"제안된 방법은 기존 시스템 의존적 모델과 유사한 성능을 보였으며, 도메인 외 데이터에서 더 나은 성능을 보였다."
"특히 훈련 데이터의 단어 오류율이 평가 데이터와 유사할 때 성능이 향상되었다."