Kaplan과 Chinchilla 연구에서 보고된 대규모 언어 모델의 규모 확장 법칙 간 차이는 주로 Kaplan이 임베딩 파라미터를 제외하고 분석했으며 작은 규모의 모델을 사용했기 때문에 발생한 것으로 나타났다.