다음 토큰 예측(NTP) 모델 학습 시, 경사 하강법 최적화 과정에서 나타나는 내재된 편향의 특성을 분석하였다. 과대 매개변수화 환경에서 NTP 데이터가 만족하는 선형 분리 가능 조건을 규명하고, 이에 따른 최적화 경로의 수렴 특성을 밝혔다.