本論文では、大規模言語モデル(LLM)の推論能力を向上させるための新しいアプローチを提案している。従来の指示学習データは人手による収集や GPT-4 の蒸留に依存しており、規模の拡大や品質の確保が課題となっていた。
本研究では、ウェブ上に自然に存在する指示データを効率的に収集・活用する手法を開発した。具体的には以下の3つのステップからなる:
この手法により、10M件もの高品質な指示データ(WEBINSTRUCT)を収集することができた。この WEBINSTRUCTデータセットを用いて訓練したMAmmoTH2モデルは、数学、科学、工学などの分野における推論タスクで大幅な性能向上を示した。特に、既存の指示学習モデルと比べて、ベンチマークの平均スコアで5-10ポイントの改善を達成した。
さらに、WEBINSTRUCTに加えて公開されている指示学習データセットを組み合わせて訓練したMAmmoTH2-Plusモデルは、多くのベンチマークで最先端の性能を達成した。これらの結果は、ウェブ上の指示データを効率的に活用することで、大規模言語モデルの推論能力を大幅に向上させられることを示している。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Xiang Yue,Tu... о arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03548.pdfГлибші Запити