核心概念
n-그램 스무딩 기법은 신경망 언어 모델에서도 여전히 중요한 역할을 할 수 있다. 본 연구에서는 n-그램 스무딩 기법을 정규화 기법으로 변환하여 신경망 언어 모델에 적용할 수 있는 일반화된 프레임워크를 제안한다.
摘要
이 논문은 n-그램 스무딩 기법과 신경망 언어 모델의 관계를 탐구한다.
-
먼저 add-λ 스무딩과 레이블 스무딩의 등가성을 보여준다. 이를 통해 n-그램 스무딩 기법을 신경망 언어 모델에 적용할 수 있는 방법을 제시한다.
-
이후 n-그램 스무딩 기법을 일반화된 정규화 프레임워크로 변환하는 방법을 제안한다. 이를 통해 기존의 n-그램 스무딩 기법을 신경망 언어 모델의 정규화 기법으로 활용할 수 있다.
-
실험 결과, 제안한 정규화 기법들이 언어 모델링과 기계 번역 과제에서 레이블 스무딩 및 표준 최대 우도 추정 기법을 능가하거나 견줄만한 성능을 보였다.
统计
언어 모델링 과제에서 Jelinek-Mercer 스무딩 기법을 사용한 모델의 perplexity는 137.41로 가장 낮았다.
기계 번역 과제에서 Jelinek-Mercer 스무딩 기법을 사용한 모델의 BLEU 점수는 33.67로 가장 높았다.
引用
"n-gram 스무딩 기법은 신경망 언어 모델에서도 여전히 중요한 역할을 할 수 있다."
"본 연구에서는 n-그램 스무딩 기법을 정규화 기법으로 변환하여 신경망 언어 모델에 적용할 수 있는 일반화된 프레임워크를 제안한다."