大規模言語モデル(LLMs)は、高度な推論タスクで優れた潜在能力を示していますが、高品質な訓練データセットの不足によってそのパフォーマンスがしばしば阻害されます。この課題に対処するため、Key-Point-Driven Data Synthesis(KPDDS)という新しいデータ合成フレームワークが提案されました。これは、キーポイントや実際のデータソースからの例題ペアを活用して質問-回答ペアを合成することで、新しい質問を生成します。KPDDSは、厳格な品質管理と大規模な拡張性を確保しつつ、新しい質問の生成を保証します。これにより、KPMathという最も包括的な合成データセットが提示されました。KPMathは、これまでに作成された最大規模の数学的推論用合成データセットであり、100万以上の質問-回答ペアから構成されています。さらに、KPMathを活用し、追加の推論集中コーパスで拡張したKPMath-Plusデータセットが作成されました。KPMath-Plus上でMistral-7Bモデルを微調整することで、「MATH」テストセットで39.3%のゼロショットPASS@1精度を達成しました。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yiming Huang... alle arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.02333.pdfDomande più approfondite