이 논문은 신경 변환기 모델에서 내부 언어 모델 제거와 순차 차별 훈련의 관계를 이론적 및 실험적으로 분석한다.
이론적으로, 저자들은 최대 상호 정보(MMI) 훈련의 최적해가 내부 언어 모델 제거와 유사한 공식을 가진다는 것을 보였다.
실험적으로, 저자들은 Librispeech 데이터셋에서 다양한 실험을 통해 내부 언어 모델 제거와 순차 차별 훈련이 유사한 효과를 달성한다는 것을 보였다. MMI와 최소 베이즈 위험(MBR) 훈련 기준, 그리고 다양한 문맥 크기의 신경 변환기와 언어 모델에 대해서도 이러한 결과가 관찰되었다.
또한 저자들은 순차 차별 훈련이 일반적으로 사용되는 zero-encoder 내부 언어 모델 추정에는 최소한의 영향만 미치지만, 인코더와 예측 + 결합 네트워크에 걸쳐 라벨 분포와 blank 억제를 포함한 후보 확률 reshaping에 공동 효과를 가진다는 것을 심층적으로 분석하였다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések