本研究は、大規模言語モデル(LLM)の事前学習データの影響を系統的に分析しています。
主な内容は以下の通りです:
48のデータセットを5つの主要カテゴリーに分類し、9つの主要能力に関するベンチマークを用いて、各データセットがLLMの性能に及ぼす影響を測定しました。
相補的、直交的、相関的な関係など、データセット間の相互作用パターンを明らかにしました。また、書籍データなどの「高インパクトデータ」を特定しました。これらのデータは複数の能力に大きな影響を及ぼしています。
これらの分析結果は、LLMの効率的な事前学習に向けた、データセットの組織化に関する洞察を提供しています。事前学習データの構成比率、データセットの配置、事前学習プロセスの評価などについて示唆を得ることができます。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yang Zhao,Li... lúc arxiv.org 03-27-2024
https://arxiv.org/pdf/2402.11537.pdfYêu cầu sâu hơn