核心概念
本文介紹了一種名為 INFANT AGENT 的新型大型語言模型代理,它整合了任務感知功能、運算符、分層管理系統和記憶檢索機制,能夠有效解決現實世界的工程問題和複雜的邏輯問題,同時顯著降低 API 成本。
摘要
論文資訊
標題:嬰兒代理:一個整合工具、邏輯驅動,並具有成本效益 API 使用的代理
作者:Bin Lei, Yuchen Li, Yiming Zeng 等人
年份:2024
研究目標
本研究旨在開發一種能夠克服大型語言模型 (LLM) 現有局限性的代理,使其能夠自主解決現實世界的工程問題,並有效處理複雜的邏輯推理任務。
方法
研究人員開發了 INFANT AGENT,這是一種完全自主的多代理工作流程,整合了逐步推理、工具調用、環境交互、回饋調整和評估總結。INFANT AGENT 採用分層協作結構,將代理分為腦級代理和手級代理,腦級代理負責所有推理,而手級代理則負責通過調用不同的工具(例如檔案編輯、網頁瀏覽和程式碼執行)來執行任務。此外,INFANT AGENT 還採用記憶檢索機制,通過在推理過程中檢索代理的歷史記憶,並將推理和任務執行部分分開,從而減少 API 權杖成本。
主要發現
實驗結果顯示,INFANT AGENT 在 SWE-bench-lite 數據集上的準確率從 0.33% 提升至 30%,在 AIME-2024 數學競賽中,準確率從 13.3% 提升至 37%。此外,與每次推理都使用完整記憶相比,INFANT AGENT 的記憶檢索機制將 API 權杖成本降低了近 80%。
主要結論
INFANT AGENT 通過整合任務感知功能、運算符、分層管理系統和記憶檢索機制,有效解決了現實世界的工程問題和複雜的邏輯問題,同時顯著降低了 API 成本。
意義
本研究提出了一種有效的大型語言模型代理架構,為開發更強大、更通用的 AI 代理提供了新的思路。
局限性和未來研究方向
未來研究方向包括將 INFANT AGENT 擴展到多模態,訓練檔案編輯模型,通過強化學習增強 GPT 的錯誤糾正能力,以及教導模型如何使用工具而不是使用冗長的提示。
統計資料
使用 INFANT AGENT 後,GPT-4o 在 SWE-bench-lite 數據集上的準確率從 0.33% 提升至 30%。
在 AIME-2024 數學競賽中,INFANT AGENT 將 GPT-4o 的準確率從 13.3% 提升至 37%。
INFANT AGENT 的記憶檢索機制將 API 權杖成本降低了近 80%。
在程式碼任務中,使用分層結構後,錯誤調用瀏覽器命令的百分比從 13.9% 下降到 0%。
新的檔案編輯命令將 SWE-Agent 檔案編輯功能的準確率從 72.9% 提高到 96.8%。
在 AIME2024 數據集上,結合 4o 和開源 Qwen2.5-72B-Instruct 的 INFANT AGENT 实现了與 o1-preview 相同的準確率,但 API 成本幾乎減半。
在 Codeforces 數據集上,雖然 INFANT AGENT 的準確率略低於 o1-preview,但 API 成本降低了近 90%。
在 GPQA Diamond 數據集上,Claude 3.5 Sonnet + Qwen2.5 72B 在 INFANT AGENT 的支持下達到了 71.7% 的準確率,超過了人類專家(69.7%)。
在沒有記憶檢索的情況下,GPT-4o 的成本為 7.81 美元,而啟用記憶檢索後,成本大幅下降至 2.03 美元。
對於 Claude 模型,在沒有記憶檢索的情況下,成本為 4.42 美元,而啟用記憶檢索後,成本降至最低 0.82 美元。
Infant Agent edit file() 方法的準確率達到 97%,而原始 SWE-Agent 方法的準確率為 73%。
引述
"LLMs themselves struggle with interaction with the physical world, which limits their capability to autonomously address certain engineering problems."
"LLMs often struggle with multi-step logical reasoning, which limits their ability to solve complex logic problems and hinders their capacity for innovation."
"By leveraging specialized agents, these approaches seek not only to automate routine and complex workflows but also to enhance the efficiency and scalability of task execution."