대형 언어 모델의 매개변수 분포가 훈련 과정에서 두 가지 뚜렷한 양상을 보인다: 초기에는 확산 과정을 거치다가 이후 결정론적 이중 모드 분포로 수렴한다. 이러한 분기 현상은 모델 성능 향상과 관련이 있으며, 효율적인 모델 훈련 및 경량화에 활용될 수 있다.