この論文は、大規模言語モデル(LLM)の進歩において重要な役割を果たすLLMデータセットに焦点を当てています。様々な観点からLLMデータセットを包括的に整理し、現在の状況や将来のトレンドについて洞察を提供しています。444個のデータセットから成る統計情報が含まれ、8つの言語カテゴリと32の異なる領域がカバーされています。これらは20次元から成る情報を含んでおり、事前学習コーパスでは774.5 TB以上、その他のデータセットでは7億件以上がサーベイされました。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yang Liu,Jia... at arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18041.pdfDeeper Inquiries