核心概念
透過在涵蓋多種代理技能的大規模互動軌跡數據集上進行微調,可以顯著提升開源大型語言模型的通用代理能力,並使其在未見任務上展現出優異的遷移能力。
研究目標
本研究旨在探討如何透過在大量互動軌跡數據上進行微調,提升開源大型語言模型的通用代理能力,並使其在未見任務上展現出優異的遷移能力。
方法
研究人員構建了一個名為 AGENTBANK 的大規模互動軌跡數據集,該數據集包含超過 50,000 個軌跡,涵蓋 16 個任務和 5 個不同的代理技能維度(推理、數學、編程、網頁導航和具身任務)。
研究人員採用了一種新穎的標註流程,將動作標註和理由標註分開,並根據任務性質採用不同的技術來獲取高質量的動作序列和對應的 CoT 理由。
研究人員使用 AGENTBANK 對 Llama-2 進行微調,開發了 SAMOYED,這是一系列專為代理任務設計的開源大型語言模型。
研究人員在已見和未見任務上評估了 SAMOYED 的性能,並與其他基線模型進行了比較。
主要發現
在 AGENTBANK 上進行大規模軌跡微調可以顯著提升開源大型語言模型的通用代理能力。
SAMOYED 在已見和未見任務上均顯著優於強基線模型,證明了其在未見任務上的遷移能力。
混合訓練通用指令數據和代碼數據可以進一步提高代理的泛化能力,並減輕災難性遺忘。
CoT 理由在代理獲取通用能力方面發揮著至關重要的作用。
結論
本研究證明了透過大規模互動軌跡數據進行微調是提升開源大型語言模型代理能力的有效途徑。 AGENTBANK 數據集和 SAMOYED 模型的提出為構建更强大的通用代理系統奠定了基礎。
限制和未來研究方向
本研究僅在 7B 和 13B 模型上進行了實驗和分析,未來需要在更大規模的模型上進行驗證。
本研究尚未充分探索為 SAMOYED 配備更複雜的代理機制(如 Reflexion 和 ReWOO)的潛力。
本研究主要關注透過對專家軌跡進行監督微調來提高代理的性能,未來可以探索基於探索的方法來進一步優化代理。
本研究圍繞構建强大的 ReAct 風格的單代理模型展開,未來可以探索基於開源大型語言模型的通用多代理系統的開發。
統計資料
AGENTBANK 數據集包含超過 50,000 個軌跡,涵蓋 16 個任務和 5 個不同的代理技能維度。
SAMOYED-7B 在未見任務上的平均得分比 Llama-2-7B-Chat 提高了 24.0%。
將 ShareGPT 數據的混合比例從 0% 提高到 10%,代理在未見任務上的性能有所提高,但隨著比例繼續增加,性能急劇下降。
在未見任務上,沒有 CoT 理由的 Llama-2-7B-Chat 模型的性能比有 CoT 理由的模型下降了 6.7%。