核心概念
小規模生成言語モデルでも、言語の単純化によって零発射学習能力が出現する。
要約
本研究では、165M以下のパラメータ数の小規模生成言語モデルを対象に、言語の単純化が零発射学習能力の出現に与える影響を調査した。主な知見は以下の通り:
- 単純化された言語で事前学習したモデルは、単語フィルタリングされた標準的なデータセットでより高い零発射学習性能を示した。これは、大規模モデルが非単純化言語で示す性能を上回るものであった。
- 単純化された言語で事前学習したモデルは、計算コスト、データサイズ、モデルサイズの3つの要因に対して、損失関数がべき乗則に従うことが示された。
- 単純化された言語で事前学習したモデルは、文法性、創造性、一貫性の面で、大規模モデルと同等以上の文章生成性能を示した。
これらの結果は、言語の単純化が小規模モデルにおける新たな能力の出現を促すことを示唆している。今後の課題として、少発射学習や推論連鎖などの他の新興能力についても、同様の検討が必要である。
統計
単純化データセットは220億トークンから構成され、そのうち51.86%がBooksデータ、23.86%がC4データ、22.12%がCommoncrawlデータから成る。
単純化データセットのZipf係数は-1.11であり、自然言語の分布特性を示している。
引用
"小規模モデルでも、言語の単純化によって零発射学習能力が出現する"
"単純化データで事前学習したモデルは、計算コスト、データサイズ、モデルサイズの3要因に対してべき乗則に従う"
"単純化データで事前学習したモデルは、大規模モデルと同等以上の文章生成性能を示す"