Belangrijkste concepten
Paraformer-v2는 기존 Paraformer 모델의 한계를 극복하고 다국어 적응성과 소음 강건성을 향상시킨 비자기회귀 음성 인식 모델이다.
Samenvatting
이 논문에서는 Paraformer-v2라는 새로운 비자기회귀 음성 인식 모델을 제안한다. Paraformer-v2는 기존 Paraformer 모델의 한계를 극복하기 위해 CTC(Connectionist Temporal Classification) 모듈을 사용하여 토큰 임베딩을 추출한다. 이를 통해 다국어 적응성과 소음 강건성이 향상되었다.
구체적으로 Paraformer-v2는 다음과 같은 특징을 가진다:
- CTC 모듈을 사용하여 토큰 임베딩을 추출함으로써 Mandarin 뿐만 아니라 영어와 같은 다른 언어에서도 우수한 성능을 보인다.
- CTC 기반 토큰 임베딩이 CIF(Continuous Integrate-and-Fire) 모듈에 비해 소음에 더 강건하다.
- 다양한 벤치마크 데이터셋에서 기존 비자기회귀 모델들을 능가하는 성능을 보이며, 강력한 자기회귀 모델들과도 견줄만한 수준의 성능을 달성한다.
- 추론 속도 면에서도 자기회귀 모델 대비 20배 이상 빠른 성능을 보인다.
이러한 Paraformer-v2의 우수한 성능과 효율성은 실제 소음이 있는 환경에서의 실험 결과를 통해 입증되었다.
Statistieken
Paraformer-v2는 AISHELL-1 데이터셋에서 기존 자기회귀 모델들을 능가하는 4.3% CER, 4.7% WER을 달성했다.
LibriSpeech 데이터셋에서 Paraformer-v2는 3.0% WER(clean), 6.9% WER(other)를 기록하며 자기회귀 모델들과 유사한 수준의 성능을 보였다.
50,000시간 규모의 자사 영어 데이터셋에서 Paraformer-v2는 19.08% WER을 달성하여 자기회귀 모델들과 견줄만한 성능을 보였다.
Citaten
"Paraformer-v2는 기존 Paraformer 모델의 한계를 극복하고 다국어 적응성과 소음 강건성을 향상시킨 비자기회귀 음성 인식 모델이다."
"Paraformer-v2는 다양한 벤치마크 데이터셋에서 기존 비자기회귀 모델들을 능가하는 성능을 보이며, 강력한 자기회귀 모델들과도 견줄만한 수준의 성능을 달성한다."
"Paraformer-v2의 우수한 성능과 효율성은 실제 소음이 있는 환경에서의 실험 결과를 통해 입증되었다."