核心概念
大型語言模型 (LLM) 在自動化滲透測試方面展現出巨大潛力,但仍面臨挑戰,例如維護完整的訊息歷史記錄和避免代理陷入困境。AutoPT 是一種基於 LLM 的新型自動化滲透測試代理,它利用狀態機來克服這些限制,並在任務完成率和效率方面均優於基準框架。
這篇研究論文探討了利用大型語言模型 (LLM) 實現端到端自動化 Web 滲透測試的進展和挑戰。
研究目標
評估 LLM 驅動代理在端到端自動化滲透測試任務中的能力和局限性。
開發一種新型代理架構,以提高 LLM 在自動化滲透測試中的效率和準確性。
方法
建立一個涵蓋 OWASP 十大漏洞列表的細粒度端到端滲透測試基準,並使用來自 Vulhub 的真實世界滲透測試環境。
使用 GPT-3.5、GPT-4o 和 GPT-4o mini 模型作為代表性 LLM,並選擇 ReAct 和基於 PentestGPT 的 PTT 框架作為基準。
開發一種稱為滲透測試狀態機 (PSM) 的新型代理架構,該架構利用有限狀態機 (FSM) 方法來解決 LLM 驅動代理的局限性。
實現一個基於 PSM 的新型端到端滲透測試系統 AutoPT,該系統利用 LLM 的固有推理能力和狀態機的約束框架。
主要發現
LLM 驅動代理熟悉滲透測試任務的框架,但在生成準確命令和執行完整流程方面仍面臨限制。
AutoPT 在 GPT-4o mini 模型上優於基準框架 ReAct,並在基準目標上將任務完成率從 22% 提高到 41%。
與基準框架和人工工作相比,AutoPT 還進一步降低了時間和經濟成本。
主要結論
LLM 在推進自動化以完成端到端滲透測試任務方面顯示出巨大潛力。
AutoPT 的開發促進了自動化滲透測試的發展,並對學術界和工業界都產生了重大影響。
局限性和未來研究
目前的代理受模型能力和模型幻覺的影響,需要進一步優化以提高準確性和可靠性。
未來研究可以探索將 AutoPT 應用於更複雜的滲透測試場景,例如紅隊測試和漏洞驗證。
統計資料
AutoPT 在基準目標上將任務完成率從 22% 提高到 41%。
AutoPT 將執行效率提高了 96.7%。
AutoPT 將使用 OpenAI API 的總成本降低了 71.6%。