이 논문은 n-그램 스무딩 기법과 신경망 언어 모델의 관계를 탐구한다.
먼저 add-λ 스무딩과 레이블 스무딩의 등가성을 보여준다. 이를 통해 n-그램 스무딩 기법을 신경망 언어 모델에 적용할 수 있는 방법을 제시한다.
이후 n-그램 스무딩 기법을 일반화된 정규화 프레임워크로 변환하는 방법을 제안한다. 이를 통해 기존의 n-그램 스무딩 기법을 신경망 언어 모델의 정규화 기법으로 활용할 수 있다.
실험 결과, 제안한 정규화 기법들이 언어 모델링과 기계 번역 과제에서 레이블 스무딩 및 표준 최대 우도 추정 기법을 능가하거나 견줄만한 성능을 보였다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Luca Malagut... klo arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17240.pdfSyvällisempiä Kysymyksiä