核心概念
言語モデルのメタプロンプトを活用し、数学的な質と教育的価値を自律的に評価・選択することで、数学推論能力の向上を図る。
要約
本研究では、言語モデルのゼロショット検証機能を活用し、数学テキストの質と教育的価値を自律的に評価・選択する手法「AutoDS」を提案している。従来の教師あり微調整や人間フィードバックによる強化学習とは異なり、本手法は人手による注釈を必要とせずに、言語モデル自身の能力を活用して数学テキストの質を評価する。
具体的には、「YES」と「NO」のトークンのロジットを用いて数学的な質と教育的価値を定量的に評価する得点関数を定義している。この得点に基づいて、Common Crawl、arXiv、Githubなどの数学関連データから高品質なデータを自律的に選択し、7B規模の言語モデルの継続プリトレーニングに活用している。
実験の結果、AutoDSによって選択されたデータを用いてプリトレーニングを行った言語モデルは、MATH、GSM8K、BIG-Bench Hardなどの数学推論タスクにおいて大幅な性能向上を示した。特にMATHタスクでは、従来手法と比べて2倍以上のプリトレーニングトークン効率を達成している。これは、AutoDSの手法が数学推論能力の向上に効果的であることを示している。
本研究は、言語モデルの自律的な学習能力を活用し、数学分野における高品質なデータセットの構築と、それに基づく言語モデルの数学推論能力の向上を実現したものである。この手法は、特定分野における言語モデルの自律的な学習を促進する新しいパラダイムを示すものと言える。
統計
数学推論タスクのMATHでは、従来手法と比べて2倍以上のプリトレーニングトークン効率を達成した。
BIG-Bench Hardタスクでは、AutoDSによって選択されたデータを用いてプリトレーニングした言語モデルが58.61%の精度を達成し、他の手法を上回った。
引用
"言語モデルのゼロショット検証機能を活用し、数学テキストの質と教育的価値を自律的に評価・選択する手法「AutoDS」を提案している。"
"AutoDSによって選択されたデータを用いてプリトレーニングを行った言語モデルは、MATH、GSM8K、BIG-Bench Hardなどの数学推論タスクにおいて大幅な性能向上を示した。"