核心概念
提出MathGenie框架,通過迭代解答擴充、問題回翻譯和基於驗證的解答過濾,生成高質量的合成數學問題和可靠的代碼集成解答,以提升大型語言模型在數學推理任務上的性能。
摘要
本文提出了MathGenie框架,旨在增強大型語言模型在數學推理任務上的能力。該框架包含三個主要步驟:
迭代解答擴充:從相對較小的訓練集(GSM8K和MATH)中的人工標註解答出發,通過迭代擴充生成大量新的解答。
問題回翻譯:利用一個問題回翻譯模型,將擴充的解答轉換為對應的新數學問題,以確保問題的可靠性和可解性。
基於驗證的解答過濾:生成代碼集成的解答,並利用驗證機制篩選出正確的解答,提高解答的可靠性。
通過上述三個步驟,MathGenie生成了一個大規模的高質量數學問題-解答數據集MathGenieData。作者利用該數據集對各種預訓練模型進行微調,得到了一系列稱為MathGenieLM的數學推理模型。實驗結果顯示,MathGenieLM在五個代表性的數學推理數據集上均取得了最佳成績,顯著優於之前的開源模型。此外,MathGenieLM還具有自我驗證解答的能力,可以進一步提高推理準確性。
統計資料
對於GSM8K數據集,MathGenieLM-Llama-2-70B的準確率達到87.7%。
對於MATH數據集,MathGenieLM-InternLM2-20B的準確率達到55.7%。
經過10次多數投票,MathGenieLM-Llama-2-70B在GSM8K和MATH上的準確率分別達到91.7%和63.3%。
引述
"MathGenie框架通過迭代解答擴充、問題回翻譯和基於驗證的解答過濾,生成高質量的合成數學問題和可靠的代碼集成解答,以提升大型語言模型在數學推理任務上的性能。"
"MathGenieLM在五個代表性的數學推理數據集上均取得了最佳成績,顯著優於之前的開源模型。"
"MathGenieLM還具有自我驗證解答的能力,可以進一步提高推理準確性。"