Core Concepts
言語モデルの新たな能力は、事前学習損失に基づいて予測される。
Abstract
言語モデルの新たな能力について、事前学習損失が重要であることが示唆されている。
モデルサイズやトレーニングトークン数に関わらず、特定のしきい値以下で性能が向上することが観察されている。
連続的メトリクスでも観測されるしきい値を持つ新たな能力が存在する。
プロットやグラフを用いて、実験結果や関係性を詳細に分析している。
Scaling of Language Models
大規模なモデルやトレーニングコンピュートによってタスクパフォーマンスが向上することが示唆されている。
事前学習損失は、モデルサイズやトレーニングコンピュートよりもタスクパフォーマンスを予測する優れた指標である。
Pre-training Setting
英語と中国語の混合コーパスで全てのモデルを事前学習しており、同じアーキテクチャを使用している。
データトークナイゼーションにはByte Pair Encoding(BPE)アルゴリズムが使用されている。
Evaluation Tasks
英語と中国語で12種類の異なるタスクに対して事前学習したモデルを評価しており、多様なタスクや言語形式をカバーしている。
Quotes
"An ability is emergent if it is not present in models with higher pre-training loss but is present in models with lower pre-training loss." - 引用元不明