本研究は、大規模言語モデル(LLM)の事前学習データの影響を系統的に分析しています。
主な内容は以下の通りです:
48のデータセットを5つの主要カテゴリーに分類し、9つの主要能力に関するベンチマークを用いて、各データセットがLLMの性能に及ぼす影響を測定しました。
相補的、直交的、相関的な関係など、データセット間の相互作用パターンを明らかにしました。また、書籍データなどの「高インパクトデータ」を特定しました。これらのデータは複数の能力に大きな影響を及ぼしています。
これらの分析結果は、LLMの効率的な事前学習に向けた、データセットの組織化に関する洞察を提供しています。事前学習データの構成比率、データセットの配置、事前学習プロセスの評価などについて示唆を得ることができます。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések