Core Concepts
大規模言語モデルを用いた数学的推論におけるキーポイント駆動型データ合成の重要性と効果を示す。
Abstract
大規模言語モデル(LLMs)は、高度な推論タスクで優れた潜在能力を示していますが、高品質な訓練データセットの不足によってそのパフォーマンスがしばしば阻害されます。この課題に対処するため、Key-Point-Driven Data Synthesis(KPDDS)という新しいデータ合成フレームワークが提案されました。これは、キーポイントや実際のデータソースからの例題ペアを活用して質問-回答ペアを合成することで、新しい質問を生成します。KPDDSは、厳格な品質管理と大規模な拡張性を確保しつつ、新しい質問の生成を保証します。これにより、KPMathという最も包括的な合成データセットが提示されました。KPMathは、これまでに作成された最大規模の数学的推論用合成データセットであり、100万以上の質問-回答ペアから構成されています。さらに、KPMathを活用し、追加の推論集中コーパスで拡張したKPMath-Plusデータセットが作成されました。KPMath-Plus上でMistral-7Bモデルを微調整することで、「MATH」テストセットで39.3%のゼロショットPASS@1精度を達成しました。
Stats
KPMathは100万以上の質問-回答ペアから構成されています。
Mistral-7BモデルはKPMath-Plus上で39.3%のゼロショットPASS@1精度を達成しました。
Quotes
"Large language models (LLMs) have shown great potential in complex reasoning tasks, yet their performance is often hampered by the scarcity of high-quality, reasoning-focused training datasets."
"We propose Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that synthesizes question-answer pairs by leveraging key points and exemplar pairs from authentic data sources."
"Utilizing KPMath and augmenting it with additional reasoning-intensive corpora, we create the comprehensive KPMath-Plus dataset."
"Our ablation studies further confirm the substantial enhancement in mathematical reasoning across various subtopics, marking a significant stride in LLMs’ reasoning capabilities."