이 연구에서는 SICL-AED라는 새로운 주목 기반 인코더-디코더 음성 인식 모델을 제안한다. SICL-AED는 문장 단위 교차 주목과 문서 단위 자기 주목을 통해 문맥 정보를 효율적으로 활용할 수 있다. 이를 통해 장문 음성 인식 성능을 향상시키고, 화자 적응 및 문맥 편향 작업에서도 우수한 성과를 보인다.
실험 결과, SICL-AED는 기존 utterance 단위 AED 모델 대비 8.64%의 상대적 WER 감소를 달성했다. 또한 문서 단위 AED 모델과 유사한 성능을 보이면서도 실행 시간과 메모리 사용량을 크게 줄였다. 추가로 도입한 문맥 fine-tuning 기법은 화자 적응과 문맥 편향 작업에서 성능을 더욱 향상시켰다.
이러한 결과는 SICL-AED가 장문 음성 인식과 더불어 다양한 문맥 학습 응용 분야에서 효과적으로 활용될 수 있음을 보여준다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問