大規模言語モデル(LLMs)は数学推論タスクで新たな能力を示し、オープンソースLLMsの能力向上に注目が集まっています。本稿では、監督されたファインチューニング(SFT)を通じてオープンソースLLMsの数学推論能力を最適化し拡張するための一般的なデータ戦略を探求します。まず、理路増強の能力境界を特定し、それらの最適な経路セットを識別することで、データの潜在性を最大限に引き出すことに焦点を当てます。次に、異なるモデルの能力が対応する種類のデータの最小最適セットを組み合わせることで累積的に向上できることを裏付けます。我々のモデルはシリーズ基本モデルでSOTAパフォーマンスを達成し、構築コストが低いです。また、現在のLLMsは数値的な堅牢性に重大な問題がないことも明らかにします。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문