核心概念
Skipformer는 중간 CTC 출력을 기준으로 입력 프레임을 중요, 사소, 무시 그룹으로 동적이고 불균일하게 분할하여 계산 복잡성을 줄이면서도 인식 정확도를 향상시킬 수 있는 모델이다.
摘要
이 논문에서는 Skipformer라는 "건너뛰기 및 복구" 전략의 Conformer 기반 음성 인식 모델을 제안한다.
- 입력 프레임을 중간 CTC 출력을 기준으로 중요, 사소, 무시 그룹으로 동적이고 불균일하게 분할한다.
- 중요 그룹은 다음 Conformer 블록에 입력되고, 사소 그룹은 건너뛰어 최종 출력에 원래 순서대로 합쳐진다. 무시 그룹은 버려진다.
- 이를 통해 계산 복잡성을 줄이면서도 인식 정확도를 향상시킬 수 있다.
- 다양한 프레임 분할 전략을 실험하여 최적의 성능을 보이는 방법을 찾아냈다.
- Aishell-1과 Librispeech 데이터셋에서 기존 모델 대비 더 나은 성능과 빠른 추론 속도를 달성했다.
統計資料
Aishell-1 테스트 셋에서 Skipformer는 입력 길이를 31배 줄일 수 있다.
Librispeech 테스트 셋에서 Skipformer는 입력 길이를 22배 줄일 수 있다.
引述
"The less useful information one frame contains, the simpler model required to model it. On the contrary, the more crucial information one frame contains, the more complex model required to model it."
"Our core idea is that the less useful information one frame contains, the simpler model required to model it. On the contrary, the more crucial information one frame contains, the more complex model required to model it."