核心概念
n-그램 언어 모델은 신경망 기반 대규모 언어 모델 시대에도 여전히 유용하며, 데이터 규모와 n의 크기를 확장함으로써 텍스트 분석과 신경망 모델 성능 향상에 기여할 수 있다.
要約
이 논문은 n-그램 언어 모델을 현대화하여 대규모 데이터에 적용하고 n의 크기를 무제한으로 확장하는 방법을 제안한다. 주요 내용은 다음과 같다:
- 5조 토큰 규모의 데이터로 n-그램 언어 모델을 학습하여 가장 큰 규모의 n-그램 모델을 구축했다.
- n의 크기를 무제한으로 확장한 ∞-그램 언어 모델을 제안했다. 이를 위해 suffix array 기반의 효율적인 infini-gram 엔진을 개발했다.
- ∞-그램 모델을 사용하여 인간이 작성한 텍스트와 기계가 생성한 텍스트를 분석한 결과, ∞-그램 모델이 긴 문맥을 잘 포착하여 높은 정확도로 다음 토큰을 예측할 수 있음을 보였다.
- ∞-그램 모델을 신경망 언어 모델과 결합하여 성능을 크게 향상시킬 수 있음을 보였다. 특히 대규모 신경망 모델(70B)의 perplexity를 최대 73% 개선할 수 있었다.
統計
5조 토큰 규모의 데이터로 n-그램 모델을 학습했다.
데이터 셋에는 최소 2사분 조 개의 고유한 n-그램이 포함되어 있다.
引用
"n-gram LMs are useful for both text analysis and improving neural LLMs."
"∞-gram has a fairly high accuracy (47%) when predicting the next token given a prefix of a human-written document, and this accuracy is higher when a longer suffix of the prompt can be used."
"Heuristically interpolating between the estimates made by ∞-gram and neural LMs can greatly reduce perplexity (by up to 73%) compared to the neural LMs alone, even when the neural LM is as large as 70B."