이 연구는 언어 모델이 미래 토큰을 위해 사전에 정보를 준비하는지 여부를 조사했다. 두 가지 가설을 제시했는데, 사전 캐싱(pre-caching) 가설은 모델이 미래 토큰 예측에 유용한 특징을 현재 토큰 예측과 무관하게 계산한다는 것이고, 빵 부스러기(breadcrumbs) 가설은 현재 토큰 예측에 가장 유용한 특징들이 미래 토큰 예측에도 도움이 된다는 것이다.
실험 결과, 합성 데이터 세트에서는 사전 캐싱이 관찰되었지만, 자연어 데이터에서는 빵 부스러기 가설이 더 잘 설명되는 것으로 나타났다. 즉, 언어 모델은 미래 토큰 예측을 위해 특별히 정보를 준비하지 않고, 현재 토큰 예측에 유용한 특징들이 자연스럽게 미래 토큰 예측에도 도움이 된다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Wilson Wu,Jo... о arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00859.pdfГлибші Запити