この論文は、大規模言語モデル(LLM)の進歩において重要な役割を果たすLLMデータセットに焦点を当てています。様々な観点からLLMデータセットを包括的に整理し、現在の状況や将来のトレンドについて洞察を提供しています。444個のデータセットから成る統計情報が含まれ、8つの言語カテゴリと32の異なる領域がカバーされています。これらは20次元から成る情報を含んでおり、事前学習コーパスでは774.5 TB以上、その他のデータセットでは7億件以上がサーベイされました。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Yang Liu,Jia... في arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18041.pdfاستفسارات أعمق