Основні поняття
LeanAgent 是一個基於終身學習的自動定理證明框架,它能夠在不斷擴展的數學知識庫上持續泛化和改進,而不會遺忘先前學到的知識,展現出在處理複雜數學問題上的潛力。
Анотація
文獻綜述
- 數學可以用非正式和正式的語言表達。非正式數學使用自然語言和直觀推理,而正式數學則使用符號邏輯來構建機器可驗證的證明。
- 大型語言模型 (LLM) 在生成證明步驟或完整證明方面展現出潛力。
- 現有方法通常涉及在特定數據集上訓練或微調 LLM。然而,形式化定理證明中的數據稀缺性阻礙了這些方法的泛化能力。
- 數學研究的動態性加劇了這一泛化問題。數學家經常同時或循環地在多個領域和項目中進行形式化。
- 現有定理證明 AI 方法的一個關鍵差距是:缺乏一個能夠適應和改進多個不同數學領域的系統,尤其是在 Lean 數據有限的情況下。
LeanAgent:基於終身學習的定理證明框架
LeanAgent 是一種新穎的定理證明終身學習框架,旨在解決上述挑戰。其工作流程包括:
- **課程學習:**LeanAgent 使用課程學習在越來越複雜的數學知識庫上進行學習。它根據定理的複雜性(使用 eS 計算,其中 S 表示證明步驟的數量)對知識庫進行排序,並從包含最多簡單定理的知識庫開始學習。
- **動態數據庫管理:**LeanAgent 使用自定義動態數據庫來管理其不斷發展的數學知識。該數據庫存儲從 Lean 知識庫中提取的信息,包括定理、證明和依賴關係。
- **檢索器的漸進式訓練:**LeanAgent 使用漸進式訓練方法來避免災難性遺忘。它在從每個知識庫生成的數據集上逐步訓練檢索器,從而使其能夠在保留先前學習信息的同時適應新的數學知識。
- **未證明定理的證明:**LeanAgent 使用最佳優先搜索算法來生成未經人類證明的定理(稱為 sorry 定理)的證明。它通過檢索與當前證明狀態相似的相關前提,並使用波束搜索生成策略候選來實現這一點。
實驗結果
- LeanAgent 在 23 個不同的 Lean 知識庫中成功證明了 162 個先前未經人類證明的定理,其中許多來自高等數學。
- 它在證明新的 sorry 定理方面的表現優於靜態 ReProver 基線高達 11 倍,同時保持了對已知定理的性能。
- LeanAgent 在定理證明中表現出漸進式學習,最初證明基本的 sorry 定理,並顯著提升到更複雜的定理。
- LeanAgent 在遺忘度量和向後傳輸方面表現出色,獲得了接近完美的 94% 的綜合得分。這解釋了其持續的泛化能力和持續改進。
結論
LeanAgent 是一個很有前途的定理證明終身學習框架,它能夠在多個數學領域實現持續的泛化和改進。其基於課程學習、漸進式訓練和動態數據庫管理的獨特組合使其能夠有效地學習和適應新的數學知識,而不會遺忘先前學到的信息。
Статистика
LeanAgent 在 23 個不同的 Lean 知識庫中成功證明了 162 個先前未經人類證明的定理。
LeanAgent 在證明新的 sorry 定理方面的表現優於靜態 ReProver 基線高達 11 倍。
LeanAgent 在遺忘度量和向後傳輸方面表現出色,獲得了接近完美的 94% 的綜合得分。
Цитати
"We present LeanAgent, a novel lifelong learning framework for theorem proving that continuously generalizes to and improves on ever-expanding mathematical knowledge without forgetting previously learned knowledge."
"LeanAgent successfully proves 162 theorems previously unproved by humans across 23 diverse Lean repositories, many from advanced mathematics."
"It performs up to 11× better than the static LLM baseline, proving challenging theorems in domains like abstract algebra and algebraic topology while showcasing a clear progression of learning from basic concepts to advanced topics."