核心概念
OPTIMA 框架通過迭代訓練和獎勵函數的設計,有效提升了基於大型語言模型的多代理系統在溝通效率和任務表現方面的性能。
文獻資訊
Chen, W., Yuan, J., Qian, C., Yang, C., Liu, Z., & Sun, M. (2024). OPTIMA: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System. arXiv preprint arXiv:2410.08115.
研究目標
本研究旨在解決基於大型語言模型(LLM)的多代理系統(MAS)在溝通效率和整體性能方面的挑戰,提出一個名為 OPTIMA 的訓練框架來優化這些系統。
方法
OPTIMA 框架採用迭代式的「生成、排序、選擇、訓練」範例,並結合一個平衡任務性能、token 效率和溝通可讀性的獎勵函數。具體來說,OPTIMA 框架包含以下步驟:
初始化: 利用多樣化的格式規範提示,促使代理生成不同風格的回應,增加溝通策略的多樣性。
迭代式監督式微調(iSFT): 在每次迭代中,使用當前模型為每個任務實例生成多個對話軌跡,根據獎勵函數選擇最佳軌跡,並使用監督式微調更新模型。
迭代式直接偏好優化(iDPO): 將蒙地卡羅樹搜尋(MCTS)與 DPO 資料收集相結合,生成高質量的配對資料,並使用 DPO 訓練模型。
混合式迭代訓練(iSFT-DPO): 結合 iSFT 和 iDPO 的優點,交替執行兩種訓練方法,以更好地平衡探索多樣化溝通策略和利用已知有效模式。
主要發現
OPTIMA 框架在多種多代理任務(包括資訊交換和辯論)上均優於單代理和多代理基準模型,顯著提高了任務性能和 token 效率。
OPTIMA 框架可以學習到更簡潔、更有效且更易於理解的溝通模式,並能有效地將學習到的知識遷移到其他任務中。
OPTIMA 框架的效率提升有助於改善推理擴展法則,在相同的計算成本下實現更高的性能。
結論
OPTIMA 框架為訓練基於 LLM 的 MAS 提供了一種有效的方法,通過優化代理間的溝通效率和整體協作能力,顯著提高了系統性能。
意義
本研究強調了高效溝通在多代理系統中的重要性,並為開發更強大、更高效的基於 LLM 的 MAS 提供了新的思路。
局限性和未來研究方向
OPTIMA 框架目前主要在雙代理場景下進行評估,未來需要進一步研究其在更大規模、更多代理的場景下的可擴展性。
未來可以探索將 OPTIMA 框架應用於更複雜的任務,例如需要使用外部工具或與環境互動的任務。
可以進一步研究如何將 OPTIMA 框架與其他技術(例如加權投票或最佳 N 選擇)相結合,以進一步提高系統性能。
統計資料
在 2WMHQA 數據集上,OPTIMA-iSFT-DPO 模型的 F1 分數比最強基準模型 SC 提高了 38.3%(性能提升了 2.8 倍),而使用的 token 數量僅為 MAD 模型的 10%。
在 GSM8k 數據集上,使用 iDPO 訓練的 OPTIMA 模型在約 10,000 個 token 時達到了 CoT-SC 模型的性能,而使用的 token 數量減少了 88.5%。