toplogo
Sign In

新しい高性能言語技術向けの大規模な多言語データセット


Core Concepts
インターネットアーカイブから抽出された巨大な多言語データセットが、言語モデリングと機械翻訳のトレーニングに適した資源を提供する。
Abstract
HPLT(High Performance Language Technologies)プロジェクトによる新しい多言語データセットの紹介。 モノリンガルコレクションは75言語をカバーし、5.6兆単語トークンを含む。 英語中心の平行コーパスは18言語ペアをカバーし、96百万文対と14億英単語を含む。 Bitextorパイプラインによるビリンガルテキスト処理手順の詳細。 環境への配慮として、開発にかかったCPUおよびGPU時間の推定値も報告。
Stats
多くのテキストコーパスが1.85 PBであることが示されています。 モノリンガルコレクションは75言語をカバーし、5.6兆単語トークンを含んでいます。 平行コーパスには18言語ペアが含まれており、96百万文対と14億英単語がカバーされています。
Quotes
"我々はHPLTプロジェクトの一環として、Webクロールから抽出した巨大な多言語テキストリソースを紹介します。" "我々の貢献は、これまでに公開された最大規模の完全アクセス可能な多言語テキストコーパスであることです。"

Deeper Inquiries

他のウェブサイトや機関からデータ提供を受け入れることで、このコレクションにさらなる情報源や処理済みコーパスを追加する計画はありますか?

現在、私たちは他のウェブサイトや機関からデータ提供を受け入れて新しい情報源や処理済みコーパスを追加する計画があります。これにより、HPLT言語リソースの拡充と品質向上が期待されます。外部からの貢献は大歓迎であり、将来的なリリースではさらなる多様性と豊富さが実現されることでしょう。

このデータセットが他のウェブベースのコーパスに見られないデータを提供していることが示唆されていますが、その品質を検証するためにモデルトレーニングを行う予定はありますか

このデータセットが他のウェブベースのコーパスに見られないデータを提供していることが示唆されていますが、その品質を検証するためにモデルトレーニングを行う予定はありますか? はい、確かにその通りです。今後の取り組みでは、このデータセットの品質評価および有効性確認のためにモデルトレーニングを行う予定です。複雑で高額な実験ではあるものの、包括的な評価作業は本稿の範囲外です。主要目的はこれらのデータセットを紹介・記述することであり、「HPLT言語リソース」プロジェクト全体へ向けて重要度および利用可能性強化策も含まれています。

CPUおよびGPU時間推定値からわかる通り、開発作業に膨大なエネルギー消費が伴っています

CPUおよびGPU時間推定値からわかる通り、開発作業に膨大なエネルギー消費が伴っています。今後も同じ方法でデータセットを作成する際に気候変動へ与える影響や持続可能性への取り組みは考慮されますか? 当然です。巨大規模なテキスト・言語モデリング用途向け「HPLT言語リソース」プロジェクト開発過程中発生したエネルギー消費量及びそれが地球環境全体へ与え得る影響等事項把握し公表します。 またLUMI超並列計算施設(Supercomputer)使用時点でも再生可能エネルギー専用採用しておりカーボンニュートラル(Carbon-neutral)保持しています。 今後展望すれば更一層自動化パイプライン整備及ビッグマシン学研究活動支援方針立案等具体策進めつつAMDポートMarianNMT, Megatron-DeepSpeed安定稼働改善対応必要だろう思われます。 最終段階目指す所LLMs, MT models各国内支援対象言語群含んだ訓練パイプライン準備完了予定です。 以上内容共々NLP分野学術界広く巨大高品質テキスト集合物提供意欲強く呼籲アピール致します。
0