この論文では、Common Crawlデータを処理する包括的なプロセスが設計され、実装されました。約680億の元の英語ドキュメントから2.22Tトークンの安全なデータと1.0Tトークンの高品質データが抽出されました。広告および流暢性分類の追加ステップは、高いデータ品質を確保するために重要でした。また、Perspective APIを使用してデータの安全性を検証しました。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiantao Qiu,... at arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.19282.pdfDeeper Inquiries