แนวคิดหลัก
프론트엔드 개선과 백엔드 인식을 완전히 분리하여 모노라우드 강건한 ASR 시스템의 진보를 이루는 중요성
บทคัดย่อ
노이즈에 강건한 ASR 시스템의 발전을 위해 프론트엔드 개선과 백엔드 인식을 분리하는 연구
ARN과 CrossNet을 사용하여 프론트엔드 개선 모델을 개발하고, 깨끗한 음성만을 훈련시킨 백엔드 ASR 모델을 제안
실험 결과, 제안된 시스템이 기존 방법보다 우수한 성능을 보임
다양한 데이터셋에서 실험을 통해 제안된 시스템의 강건성과 일반화 능력을 입증
สถิติ
제안된 시스템은 CHiME-2에서 이전 최고의 단어 오류율(WER)을 28.4% 상대적으로 낮추고, CHiME-4에서 3.32/4.44% WER을 달성
시간-주파수 도메인 개선 모델인 CrossNet과 시간 도메인 개선 모델인 ARN을 사용하여 실험 수행
คำพูด
"모노라우드 개선된 음성은 노이즈 환경에서 개선된 ASR 결과로 변환됨"
"제안된 시스템은 모든 기준선을 능가하며, 노이즈, 반향 및 반향-노이즈 음성에 대해 일반화 잘됨"