小規模な言語モデルの性能低下は、出力表現の次元数と目標の文脈確率分布の高ランクとのミスマッチによって説明できる。このミスマッチは、よく知られているソフトマックス・ボトルネック現象を通じて、言語モデルの線形予測ヘッドの性能に影響を及ぼす。