核心概念
通過在大規模 LEAN 問題集上進行專家迭代訓練,InternLM2.5-StepProver 在自動定理證明方面取得了顯著進展,證明了專家迭代和評論模型在解決複雜數學問題方面的有效性。
要約
InternLM2.5-StepProver:基於大規模 LEAN 問題集的專家迭代方法,推進自動定理證明
研究背景
自動定理證明是人工智能領域中一個極具挑戰性的課題,需要複雜的推理能力和對數學的深入理解。近年來,大型語言模型(LLM)在數學定理證明方面展現出巨大潛力,特別是在使用 LEAN 等形式語言的情況下。
研究方法
本研究提出了 InternLM2.5-StepProver,這是一種基於專家迭代方法的自動定理證明模型。研究人員利用包含超過 20,000 個 CPU 天的 Lean-workbook 問題集進行專家迭代訓練。在迭代過程中,研究人員發現,解決問題的數量與證明長度和 CPU 使用量之間存在對數線性關係。此外,他們還訓練了一個評論模型,用於選擇相對簡單的問題供策略模型進行嘗試,並引導模型尋找更深層次的證明。
主要發現
- 成功率:只有 1.5% 的 CPU 使用量產生了成功的證明或反證,這凸顯了自動定理證明的巨大難度。
- 搜索策略:與樸素的最佳優先搜索方法相比,集成評論模型始終產生更深層次的證明。
- 比例關係:研究人員發現,已證明問題的數量與證明長度和計算資源之間存在對數線性關係,這為未來工作中的資源分配提供了寶貴的見解。
研究結論
InternLM2.5-StepProver 在 MiniF2F、Lean-Workbook-Plus、ProofNet 和 Putnam 等基準測試中均取得了最先進的表現。具體而言,它在 MiniF2F 測試中達到了 65.9% 的通過率,並在 Lean-Workbook-Plus 中證明(或反證)了 17.0% 的問題,與 Lean-Workbook-Plus 發布時僅證明了 9.5% 的問題相比有了顯著改進。
研究意義
本研究為提高證明搜索效率提供了實用的指導,並提出了擴展到與 AlphaProof 的 1 億個問題相當的更大訓練集的途徑。研究結果為自動數學推理的未來發展提供了具體指導。
研究局限性
本研究主要關注上下文級別的數學問題,較少關注其他自動定理證明場景。此外,目前還缺乏穩定的指標來衡量評論模型,這使得評論模型的迭代變得困難。
統計
研究人員使用超過 20,000 個 CPU 天來搜索 Lean-Workbook-Plus 上的證明。
InternLM2.5-StepProver 在 MiniF2F 測試中達到了 65.9% 的通過率。
InternLM2.5-StepProver 在 Lean-Workbook-Plus 中證明(或反證)了 17.0% 的問題。
只有 1.5% 的 CPU 使用量產生了成功的證明或反證。
引用
"Only 1.5% of CPU usage resulted in successful proofs or disproofs, highlighting the substantial difficulty of automated theorem proving."
"The integration of a critic model consistently produced deeper proofs compared to naive best-first-search approaches."
"We identified a log-linear relationship between the number of proved problems and both proof length and computational resources, providing valuable insights for resource allocation in future work."