核心概念
LMの最適な学習は、圧縮率を最大化し、スケーリング法則の改善によりトレーニングを加速します。
要約
この論文では、言語モデルの最適な学習に関する理論を確立しています。圧縮率を最大化する目的を提案し、「Learning Law」と呼ばれる定理がすべての例がLMに同じ貢献度を持つべきであることを示しています。実験では、PerceptronおよびTransformerで検証され、近接ポリシーはスケーリング法則係数を本質的に改善しました。
統計
3.16 × 10^8, 1.99 × 10^7: スケーリング法則の係数Bとβ
引用
"Our objective is to minimize the area under loss curve, which is equivalent to maximizing the compression ratio of training corpus."
"The contribution of an example is defined as the dot-product of its gradient and the gradient of a desired loss."
"The optimal learning policy establishes a dynamic data re-weighting strategy."