Core Concepts
言語モデルの性能向上は、主にスケーリングされたモデルとデータセットから来ており、アルゴリズム革新よりも大きな影響を持っている。
Abstract
2012年から2023年までの200以上の言語モデル評価を分析し、固定された性能基準に到達するために必要なコンピュートが約8か月ごとに半減していることが明らかになった。この速度はMoore's Lawよりも速く、言語モデリングがコンピュータビジョンや強化学習といった他の領域と同様に急速に進歩していることを示唆しています。また、最近の進歩の大部分はアルゴリズム革新よりもスケーリングされたモデルやデータセットから来ており、アルゴリズムが貢献する割合はわずか5〜40%であることが示されています。さらに、2017年以降導入されたトランスフォーマー・アーキテクチャは重要なアルゴリズム的前進であり、過去10年間の言語モデリング分野で約3〜46倍のコンピュート相当利益をもたらしています。
Stats
2012年から2023年までの200以上の言語モデル評価を分析
コンピュートが約8か月ごとに半減している
Quotes
"Despite its limitations, this research demonstrates the valuable insights that can be gained from a detailed statistical analysis of extensive datasets of machine learning results."
"Our work reveals that the majority of recent advancements in language modeling stem more from scaling models and datasets than from pre-training algorithmic innovations."
"The transformer architecture typically lowers reducible loss proportionally by 4.6%."