核心概念
大規模言語モデルの性能に対する事前学習データの各コンポーネントの影響を系統的に分析し、相互作用パターンを明らかにする。
要約
本研究は、大規模言語モデル(LLM)の事前学習データの影響を系統的に分析しています。
主な内容は以下の通りです:
48のデータセットを5つの主要カテゴリーに分類し、9つの主要能力に関するベンチマークを用いて、各データセットがLLMの性能に及ぼす影響を測定しました。
相補的、直交的、相関的な関係など、データセット間の相互作用パターンを明らかにしました。また、書籍データなどの「高インパクトデータ」を特定しました。これらのデータは複数の能力に大きな影響を及ぼしています。
これらの分析結果は、LLMの効率的な事前学習に向けた、データセットの組織化に関する洞察を提供しています。事前学習データの構成比率、データセットの配置、事前学習プロセスの評価などについて示唆を得ることができます。
統計
LLMの性能が平均以上に低下した場合、その低下率は以下の通りです:
書籍データを忘却した場合、16の能力で平均以上の低下
Shellデータを忘却した場合、14の能力で平均以上の低下
Githubデータを忘却した場合、14の能力で平均以上の低下