要約
この論文は、大規模言語モデル(LLM)の進歩において重要な役割を果たすLLMデータセットに焦点を当てています。様々な観点からLLMデータセットを包括的に整理し、現在の状況や将来のトレンドについて洞察を提供しています。444個のデータセットから成る統計情報が含まれ、8つの言語カテゴリと32の異なる領域がカバーされています。これらは20次元から成る情報を含んでおり、事前学習コーパスでは774.5 TB以上、その他のデータセットでは7億件以上がサーベイされました。
統計
774.5 TB以上の事前学習コーパスと700M件以上のその他のデータセット
444個のデータセットから成る統計情報
引用
"Without high-quality datasets as the foundation, it is challenging to grow the tree of LLMs with flourishing branches and leaves."
"LLM datasets are not only categorized based on tasks but also have associations with different stages of LLMs."
"The composition and quality of these datasets profoundly influence the performance of LLMs."