작은 언어 모델은 낮은 차원의 출력 표현 공간과 높은 순위의 문맥 확률 분포 사이의 불일치로 인해 성능 저하를 겪는다.
언어 모델은 모델 크기에 비례하여 2비트/매개변수의 비율로 지식을 저장할 수 있다.
언어 모델의 성능은 모델 크기나 학습 데이터 양보다는 사전 학습 손실 함수에 의해 결정된다. 일부 과제에서는 사전 학습 손실이 특정 임계값 이하로 낮아질 때 성능이 급격히 향상되는 '잠재력 발현' 현상이 관찰된다.