Core Concepts
언어 모델은 현재 토큰 예측에 필요한 특징만 계산하며, 미래 토큰 예측을 위해 특별히 사전에 정보를 준비하지 않는다. 대신 현재 토큰 예측에 유용한 특징들이 자연스럽게 미래 토큰 예측에도 도움이 된다.
Abstract
이 연구는 언어 모델이 미래 토큰을 위해 사전에 정보를 준비하는지 여부를 조사했다. 두 가지 가설을 제시했는데, 사전 캐싱(pre-caching) 가설은 모델이 미래 토큰 예측에 유용한 특징을 현재 토큰 예측과 무관하게 계산한다는 것이고, 빵 부스러기(breadcrumbs) 가설은 현재 토큰 예측에 가장 유용한 특징들이 미래 토큰 예측에도 도움이 된다는 것이다.
실험 결과, 합성 데이터 세트에서는 사전 캐싱이 관찰되었지만, 자연어 데이터에서는 빵 부스러기 가설이 더 잘 설명되는 것으로 나타났다. 즉, 언어 모델은 미래 토큰 예측을 위해 특별히 정보를 준비하지 않고, 현재 토큰 예측에 유용한 특징들이 자연스럽게 미래 토큰 예측에도 도움이 된다.
Stats
언어 모델의 현재 토큰 예측 성능과 미래 토큰 예측 성능 사이에 큰 차이가 없다.
언어 모델의 지역 단기 기억 보너스(local myopia bonus)가 매우 작다.
Quotes
"언어 모델은 현재 토큰 예측에 필요한 특징만 계산하며, 미래 토큰 예측을 위해 특별히 정보를 준비하지 않는다."
"현재 토큰 예측에 유용한 특징들이 자연스럽게 미래 토큰 예측에도 도움이 된다."