이 연구는 언어 모델이 미래 토큰을 위해 사전에 정보를 준비하는지 여부를 조사했다. 두 가지 가설을 제시했는데, 사전 캐싱(pre-caching) 가설은 모델이 미래 토큰 예측에 유용한 특징을 현재 토큰 예측과 무관하게 계산한다는 것이고, 빵 부스러기(breadcrumbs) 가설은 현재 토큰 예측에 가장 유용한 특징들이 미래 토큰 예측에도 도움이 된다는 것이다.
실험 결과, 합성 데이터 세트에서는 사전 캐싱이 관찰되었지만, 자연어 데이터에서는 빵 부스러기 가설이 더 잘 설명되는 것으로 나타났다. 즉, 언어 모델은 미래 토큰 예측을 위해 특별히 정보를 준비하지 않고, 현재 토큰 예측에 유용한 특징들이 자연스럽게 미래 토큰 예측에도 도움이 된다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問