Temel Kavramlar
Conformer-1은 570,000시간의 방대한 데이터셋을 활용하여 학습된 엔드-투-엔드 자동 음성 인식 모델로, 기존 모델 대비 단어 오류율이 최대 24.3% 감소하였으며 배경 소음에 대한 강건성이 크게 향상되었다.
Özet
본 논문은 Conformer-1이라는 엔드-투-엔드 자동 음성 인식 모델을 소개한다. Conformer-1은 570,000시간의 방대한 데이터셋을 활용하여 학습되었으며, 이 중 91%는 공개된 데이터로 구성되어 있다.
데이터셋 구성:
- 57,000시간의 고품질 인간 레이블 데이터
- 520,000시간의 의사 레이블 데이터 (기존 모델을 활용하여 생성)
모델 학습 과정:
- 기존 Conformer RNN-T 모델을 활용하여 공개 데이터에 대한 의사 레이블 생성
- 의사 레이블 데이터를 활용하여 Noisy Student Training 수행
- 모델 크기와 데이터셋 크기의 최적 비율 탐색 (Appendix C)
실험 결과:
- 기존 모델 대비 단어 오류율 최대 24.3% 감소
- 배경 소음에 대한 강건성 크게 향상
- 다양한 공개 및 내부 벤치마크에서 최신 성능 달성
핵심 기여:
- 대규모 반지도 데이터를 활용하여 자동 음성 인식 성능 향상
- 단어 오류율 외 적절한 고유명사 정확도 지표 제안
- 배경 소음에 대한 강건성 향상 실험 수행
İstatistikler
570,000시간의 방대한 데이터셋 중 91%가 공개 데이터로 구성되어 있다.
57,000시간의 고품질 인간 레이블 데이터와 520,000시간의 의사 레이블 데이터를 활용하여 모델 학습을 수행하였다.
모델 크기와 데이터셋 크기의 최적 비율을 탐색한 결과, 264백만 개의 파라미터와 550,000시간의 데이터셋이 최적인 것으로 나타났다.
Alıntılar
"Conformer-1은 570,000시간의 방대한 데이터셋을 활용하여 학습되었으며, 이 중 91%는 공개된 데이터로 구성되어 있다."
"Conformer-1의 비동기 모델과 실시간 모델은 각각 단어 오류율이 11.5%와 24.3% 감소하였다."
"Conformer-1은 배경 소음에 대한 강건성이 크게 향상되었다."