本論文では、大規模言語モデル(LLM)の振る舞いを理解するには、単なる統計的一般化では不十分であることを主張する。LLMは「飽和領域」に到達し、訓練損失と検証損失が最小化されるが、この事実だけでは、ゼロショット外挿、文脈学習、fine-tuningの性能などの重要な特性を説明できない。
論文では、自己回帰型確率モデルが本質的に非同定可能であることを示し、この非同定性が実践的に重要な意味を持つことを3つのケーススタディで説明する。
ゼロショット外挿の非同定性: 訓練分布外のプロンプトに対する完成は、損失関数では捉えられず、モデルの帰納バイアスによって生まれる。
文脈学習の非同定性: 訓練分布に対する十分な近似では文脈学習能力を保証できず、別の帰納バイアスが必要。
fine-tuningの非同定性: 同等の事前学習損失を持つモデルでも、パラメータ化の違いにより fine-tuning性能が大きく異なる。
論文では、LLMを「飽和領域」で理解するための3つの研究方向性を提案する:
一般化の尺度の改善: 統計的一般化以外の性質(合成性、体系性、記号性)を捉える尺度の開発。
計算言語モデリング: 形式言語を用いた LLMの振る舞いの理解。
帰納バイアスの解明: LLMの性能に影響する、問題や損失関数に依存しない帰納バイアスの特定。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Patr... às arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01964.pdfPerguntas Mais Profundas