Kernekoncepter
CoqPilot 是一個 VS Code 外掛程式,旨在利用大型語言模型和其他方法簡化 Coq 程式碼的生成,並透過整合多種生成方法和自動校驗功能,協助使用者更有效率地編寫 Coq 證明。
Resumé
CoqPilot 概述
CoqPilot 是一個為 VS Code 開發的插件,旨在協助自動生成 Coq 證明。它會收集 Coq 檔案中標記為 admit 的部分(即待證明的目標),並結合大型語言模型(LLM)和非機器學習方法來生成候選證明。然後,CoqPilot 會檢查每個候選證明是否解決了給定的子目標,如果成功,則用它替換 admit。
CoqPilot 的主要目標
- 讓使用者能夠無縫地結合多種 Coq 生成方法。
- 提供一個零設置的工具使用體驗。
- 為基於 LLM 的 Coq 證明生成實驗提供一個平台。
CoqPilot 的功能
- 整合多種 Coq 生成方法,包括 OpenAI API、本地運行的 LLM、JetBrains AI 平台和預定義的自動化策略。
- 自動檢查多個生成的證明候選,並向使用者呈現有效的證明。
- 實現前提選擇,以便更好地提示 LLM。
- 創建一個 LLM 引導的機制,嘗試藉助 Coq 的錯誤訊息修復失敗的證明。
- 提供一個基準測試系統,用於評估 Coq 生成方法的效能。
CoqPilot 的優勢
- 與傳統的 Coq 生成工具相比,CoqPilot 更易於設置和使用。
- 它允許使用者組合不同的生成方法,從而提高生成成功的可能性。
- CoqPilot 的自動校驗功能確保只向使用者呈現有效的證明。
- 其模組化架構使其易於適應其他定理證明器。
CoqPilot 的限制
- CoqPilot 依賴於 Coq-LSP,它僅支援從 8.15 版本開始的 Coq 版本。
- 商業 LLM 提供者對其模型的使用率有限制,這可能會影響 CoqPilot 的效能。
CoqPilot 的未來方向
- 開發更先進的技術來增強 LLM 在生成 Coq 程式碼方面的能力。
- 將 CoqPilot 適配到其他定理證明器。
- 探索使用 CoqPilot 來生成更複雜的證明。
Statistik
在 IMM 專案中,長度不超過 20 個策略的證明佔所有證明的 83%。
使用 CoqPilot 和 GPT-4o 模型,51% 的定理在第一次嘗試時就被成功證明。
將 CoqPilot 與其他 Coq 自動化工具(如 CoqHammer 和 Tactician)結合使用,可以證明 51% 的定理。
在一個包含 50 個定理的實驗中,使用 CoqPilot 的多輪機制成功修復了 2 個額外證明。
Citater
"我們希望讓使用者能夠無縫地結合多種 Coq 生成方法,並為我們的工具提供零設置的體驗。"
"我們希望為基於 LLM 的 Coq 證明生成實驗提供一個平台。"
"與單獨使用 LLM 相比,CoqPilot 的修改將 GPT-4o 的成功率從 0% 提高到了 34%。"