自動定理證明是人工智能領域中一個極具挑戰性的課題,需要複雜的推理能力和對數學的深入理解。近年來,大型語言模型(LLM)在數學定理證明方面展現出巨大潛力,特別是在使用 LEAN 等形式語言的情況下。
本研究提出了 InternLM2.5-StepProver,這是一種基於專家迭代方法的自動定理證明模型。研究人員利用包含超過 20,000 個 CPU 天的 Lean-workbook 問題集進行專家迭代訓練。在迭代過程中,研究人員發現,解決問題的數量與證明長度和 CPU 使用量之間存在對數線性關係。此外,他們還訓練了一個評論模型,用於選擇相對簡單的問題供策略模型進行嘗試,並引導模型尋找更深層次的證明。
InternLM2.5-StepProver 在 MiniF2F、Lean-Workbook-Plus、ProofNet 和 Putnam 等基準測試中均取得了最先進的表現。具體而言,它在 MiniF2F 測試中達到了 65.9% 的通過率,並在 Lean-Workbook-Plus 中證明(或反證)了 17.0% 的問題,與 Lean-Workbook-Plus 發布時僅證明了 9.5% 的問題相比有了顯著改進。
本研究為提高證明搜索效率提供了實用的指導,並提出了擴展到與 AlphaProof 的 1 億個問題相當的更大訓練集的途徑。研究結果為自動數學推理的未來發展提供了具體指導。
本研究主要關注上下文級別的數學問題,較少關注其他自動定理證明場景。此外,目前還缺乏穩定的指標來衡量評論模型,這使得評論模型的迭代變得困難。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Zijian Wu, S... às arxiv.org 10-22-2024
https://arxiv.org/pdf/2410.15700.pdfPerguntas Mais Profundas