核心概念
ウェブ上に豊富に存在する高品質な指示データを効率的に収集・活用することで、大規模言語モデルの推論能力を大幅に向上させることができる。
要約
本論文では、大規模言語モデル(LLM)の推論能力を向上させるための新しいアプローチを提案している。従来の指示学習データは人手による収集や GPT-4 の蒸留に依存しており、規模の拡大や品質の確保が課題となっていた。
本研究では、ウェブ上に自然に存在する指示データを効率的に収集・活用する手法を開発した。具体的には以下の3つのステップからなる:
- 関連文書の収集: 多様な分野の指示データを含むウェブページを Common Crawl から効率的に収集する。
- 質問-回答ペアの抽出: 収集した文書から、LLMを用いて質問-回答ペアを抽出する。
- 質問-回答ペアの精製: 抽出された質問-回答ペアを別のLLMを用いて精製し、品質を向上させる。
この手法により、10M件もの高品質な指示データ(WEBINSTRUCT)を収集することができた。この WEBINSTRUCTデータセットを用いて訓練したMAmmoTH2モデルは、数学、科学、工学などの分野における推論タスクで大幅な性能向上を示した。特に、既存の指示学習モデルと比べて、ベンチマークの平均スコアで5-10ポイントの改善を達成した。
さらに、WEBINSTRUCTに加えて公開されている指示学習データセットを組み合わせて訓練したMAmmoTH2-Plusモデルは、多くのベンチマークで最先端の性能を達成した。これらの結果は、ウェブ上の指示データを効率的に活用することで、大規模言語モデルの推論能力を大幅に向上させられることを示している。
統計
数学ベンチマークTHEOREMQAでは、MAmmoTH2-7Bが34.2%の精度を達成し、ベースラインモデルMistral-7Bの19.2%から大幅に向上した。
数学ベンチマークMATHでは、MAmmoTH2-7Bが34.2%の精度を達成し、ベースラインモデルMistral-7Bの11.2%から大幅に向上した。
科学ベンチマークGPQAでは、MAmmoTH2-8Bが38.4%の精度を達成し、ベースラインモデルLlama-3-8Bの27.2%から大幅に向上した。
引用
"ウェブ上に豊富に存在する高品質な指示データを効率的に収集・活用することで、大規模言語モデルの推論能力を大幅に向上させることができる。"
"MAmmoTH2-7Bは、数学ベンチマークMATHで34.2%の精度を達成し、ベースラインモデルMistral-7Bの11.2%から大幅に向上した。"
"MAmmoTH2-8Bは、科学ベンチマークGPQAで38.4%の精度を達成し、ベースラインモデルLlama-3-8Bの27.2%から大幅に向上した。"