מושגי ליבה
본 연구는 최근 제안된 Mamba 상태 공간 모델을 활용하여 효율적인 스트리밍 음성 인식 모델을 개발하였다. 또한 유니모달 집계 기법을 통해 토큰 경계를 명시적으로 탐지하고 토큰 출력을 트리거하는 방식을 제안하였다.
תקציר
이 논문은 스트리밍 자동 음성 인식(ASR)에 대해 다루고 있다. 최근 제안된 Mamba 상태 공간 모델은 다양한 작업에서 Transformer와 동등하거나 뛰어난 성능을 보여주면서도 선형 복잡도 이점을 누릴 수 있다. 이 연구에서는 Mamba 인코더의 스트리밍 ASR에 대한 효율성을 탐구하고, 제어 가능한 미래 정보를 활용하기 위한 관련 룩어헤드 메커니즘을 제안한다.
또한 토큰 활성을 자동으로 감지하고 토큰 출력을 스트리밍으로 트리거하며, 동시에 토큰 표현 학습을 위해 특징 프레임을 집계하는 스트리밍 스타일의 유니모달 집계(UMA) 방법을 구현한다. UMA 기반으로 인식 지연을 더 줄이기 위한 조기 종료(ET) 방법도 제안한다.
두 개의 중국어 데이터셋에 대한 실험 결과, 제안된 모델이 인식 정확도와 지연 측면에서 모두 경쟁력 있는 ASR 성능을 달성한다는 것을 보여준다.
סטטיסטיקה
중국어 데이터셋 AISHELL-1의 평균 발화 길이는 5.03초이며, 4,232개의 중국어 문자가 사용된다.
중국어 데이터셋 AISHELL-2의 평균 발화 길이는 2.88초이며, 5,211개의 중국어 문자가 사용된다.
ציטוטים
"Mamba, a recently proposed state space model, has demonstrated the ability to match or surpass Transformers in various tasks while benefiting from a linear complexity advantage."
"UMA was proposed in our previous work [20] for offline ASR. In UMA, one text token has unimodal weights (namely first monotonically increasing and then decreasing weights) on feature frames that belong to the token."
"Besides outputting a text token when reaching a UMA valley, we give an extra try of outputting a text token when reaching a UMA peak, by aggregating frames from the previous UMA valley to the UMA peak."