Core Concepts
インターネットアーカイブから抽出された巨大な多言語データセットが、言語モデリングと機械翻訳のトレーニングに適した資源を提供する。
Abstract
HPLT(High Performance Language Technologies)プロジェクトによる新しい多言語データセットの紹介。
モノリンガルコレクションは75言語をカバーし、5.6兆単語トークンを含む。
英語中心の平行コーパスは18言語ペアをカバーし、96百万文対と14億英単語を含む。
Bitextorパイプラインによるビリンガルテキスト処理手順の詳細。
環境への配慮として、開発にかかったCPUおよびGPU時間の推定値も報告。
Stats
多くのテキストコーパスが1.85 PBであることが示されています。
モノリンガルコレクションは75言語をカバーし、5.6兆単語トークンを含んでいます。
平行コーパスには18言語ペアが含まれており、96百万文対と14億英単語がカバーされています。
Quotes
"我々はHPLTプロジェクトの一環として、Webクロールから抽出した巨大な多言語テキストリソースを紹介します。"
"我々の貢献は、これまでに公開された最大規模の完全アクセス可能な多言語テキストコーパスであることです。"