Core Concepts
言語モデルの優れた性能は単なる統計的一般化の結果ではなく、モデルの帰納バイアスに依存している。
Abstract
本論文では、大規模言語モデル(LLM)の振る舞いを理解するには、単なる統計的一般化では不十分であることを主張する。LLMは「飽和領域」に到達し、訓練損失と検証損失が最小化されるが、この事実だけでは、ゼロショット外挿、文脈学習、fine-tuningの性能などの重要な特性を説明できない。
論文では、自己回帰型確率モデルが本質的に非同定可能であることを示し、この非同定性が実践的に重要な意味を持つことを3つのケーススタディで説明する。
ゼロショット外挿の非同定性: 訓練分布外のプロンプトに対する完成は、損失関数では捉えられず、モデルの帰納バイアスによって生まれる。
文脈学習の非同定性: 訓練分布に対する十分な近似では文脈学習能力を保証できず、別の帰納バイアスが必要。
fine-tuningの非同定性: 同等の事前学習損失を持つモデルでも、パラメータ化の違いにより fine-tuning性能が大きく異なる。
論文では、LLMを「飽和領域」で理解するための3つの研究方向性を提案する:
一般化の尺度の改善: 統計的一般化以外の性質(合成性、体系性、記号性)を捉える尺度の開発。
計算言語モデリング: 形式言語を用いた LLMの振る舞いの理解。
帰納バイアスの解明: LLMの性能に影響する、問題や損失関数に依存しない帰納バイアスの特定。
Stats
訓練損失と検証損失が最小化されても、ゼロショット外挿の正解率は43.7%にとどまる。
同等の検証損失を持つモデルでも、ゼロショット外挿の正解率は大きく異なる。
Quotes
「統計的一般化だけでは、LLMの最も興味深い現象を説明できない」
「LLMを「飽和領域」で理解する必要がある」