本研究は、大規模言語モデルの事前学習に必要な大規模で高品質なデータを効率的に処理するための統合フレームワークを提案している。
フレームワークは、以下の2つのモジュールから構成される:
Processing Module:
Analyzing Module:
ユーザーは、Analyzing Moduleで事前にデータの特性を把握し、Processing Moduleの演算子を組み合わせてカスタマイズしたデータ処理パイプラインを構築できる。処理後のデータはさらにAnalyzing Moduleで評価し、必要に応じて反復的に改善できる。
実験では、提案フレームワークを用いて3つのデータセット(OpenWebText2、Wikipedia、HackerNews)を処理し、ChatGPTによる自動評価と、GPT-2モデルの事前学習実験で、データ品質の向上と言語モデルの性能向上を確認した。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Yiding Sun,F... ב- arxiv.org 04-24-2024
https://arxiv.org/pdf/2402.16358.pdfשאלות מעמיקות