本論文では、小規模な言語モデルの性能低下(飽和現象)を探究している。
まず、Pythiaモデルスイートの評価結果から、小規模モデルの性能が訓練の後期に低下することを確認した。この現象は、スケーリング則からも予測できる。
次に、この飽和現象と表現の劣化(退化)との関係を分析した。小規模モデルの最終層では顕著な異方性(anisotropy)が観察され、これが飽和現象と相関していることがわかった。さらに、小規模モデルの言語モデリング・ヘッドの特異値分布が訓練に伴って一様化し、最終的に劣化状態に陥ることを示した。
理論的には、言語モデリング・ヘッドの低ランク性が性能の制限要因となることを示した。具体的には、理想的な文脈確率分布のランクが高いことを実証的に確認し、ヘッドの次元数が1000未満の場合に性能が大きく低下することを明らかにした。
以上より、小規模言語モデルの性能低下は、出力表現の次元数と目標分布のランクとのミスマッチによって引き起こされる、ソフトマックス・ボトルネック現象が主な原因であると結論付けられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問