核心概念
インターネットアーカイブから抽出された巨大な多言語データセットが、言語モデリングと機械翻訳のトレーニングに適した資源を提供する。
统计
多くのテキストコーパスが1.85 PBであることが示されています。
モノリンガルコレクションは75言語をカバーし、5.6兆単語トークンを含んでいます。
平行コーパスには18言語ペアが含まれており、96百万文対と14億英単語がカバーされています。
引用
"我々はHPLTプロジェクトの一環として、Webクロールから抽出した巨大な多言語テキストリソースを紹介します。"
"我々の貢献は、これまでに公開された最大規模の完全アクセス可能な多言語テキストコーパスであることです。"