이 논문은 CUSIDE-T라는 새로운 스트리밍 음성 인식 모델을 제안한다. CUSIDE-T는 RNN-T 모델 구조에 CUSIDE 방법론을 적용한 것으로, 다음과 같은 특징을 가진다:
입력 특징을 겹치는 청크로 분할하고, 미래 맥락을 시뮬레이션하여 청크에 연결한다. 이를 통해 실제 미래 프레임을 기다리지 않고도 성능을 향상시킬 수 있다.
스트리밍 모드와 비스트리밍 모드를 통합하여 단일 모델로 학습한다. 이를 통해 모델 크기와 복잡도를 줄일 수 있다.
청크 크기 랜덤화와 오른쪽 맥락 랜덤화 기법을 사용하여 모델의 일반화 성능을 높인다.
언어 모델 재점수화를 적용하여 정확도를 추가로 향상시킨다.
실험 결과, CUSIDE-T는 기존의 U2++ 모델 대비 동일한 지연 시간 조건에서 더 높은 정확도를 달성하였다. 이는 미래 맥락 시뮬레이션의 장점을 보여준다. 또한 언어 모델 재점수화가 주의 기반 재점수화보다 더 효과적인 것으로 나타났다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania