核心概念
Trace 框架利用執行軌跡而非梯度來優化包含大型語言模型在內的複雜計算流程,將其轉化為帶軌跡預言機的優化問題 (OPTO),並提出了一種基於 LLM 的通用生成式優化器 OptoPrime,展現了其在自動化設計和更新 AI 系統方面的潛力。
這篇研究論文介紹了 Trace,一個用於優化包含大型語言模型 (LLM) 等複雜計算流程的新框架。不同於依賴梯度的傳統自動微分框架,Trace 利用執行軌跡來引導優化過程,使其適用於更廣泛的非微分工作流程。
計算流程優化的挑戰
現今的 AI 應用程式,例如聊天機器人、程式碼輔助工具和機器人,通常仰賴整合了 LLM、機器學習模型、協調器、檢索器和工具的複雜計算流程。然而,設計和更新這些流程需要大量的人工,因為它們涉及許多異質參數(例如提示、協調程式碼和機器學習超參數),並且可能表現出複雜的行為,包括非微分、半黑盒和隨機操作。
Trace 的解決方案:基於軌跡的優化
Trace 將計算流程視為一個圖,類似於神經網路,其中節點表示輸入、參數或計算步驟的結果,而有向邊表示節點之間的關係。與傳播梯度不同,Trace 傳播工作流程的執行軌跡,記錄中間計算結果及其使用方式。這個執行軌跡類似於自動微分中的反向傳播梯度,提供了解釋回饋和有效優化的關鍵資訊。
OPTO:帶軌跡預言機的優化
Trace 的設計基於一種新的迭代優化數學設定,稱為帶軌跡預言機的優化 (OPTO)。在 OPTO 中,優化器會選擇參數,並接收計算圖以及對計算輸出的回饋。Trace 作為一個工具,可以有效地將計算流程的優化轉換為實際中的 OPTO 問題。
OptoPrime:基於 LLM 的通用生成式優化器
為了驗證 OPTO 的有效性,研究人員開發了一種基於 LLM 的通用生成式優化器,稱為 OptoPrime。OptoPrime 將 OPTO 轉換為一系列偽演算法問題,在每次迭代中,將執行軌跡和輸出回饋格式化為偽演算法問題,並將其提交給 LLM(使用 ReAct-CoT 提示的 GPT-4)以獲得解決方案。
實驗結果
研究人員通過各種實驗證明了 Trace 和 OptoPrime 的有效性,包括數值優化、超參數調整、機器人控制器設計和程式碼除錯。實驗結果顯示,OptoPrime 在這些不同領域中表現出色,通常與特定領域的專用優化器不相上下。
結論和未來方向
Trace、OPTO 和 OptoPrime 為端到端生成式優化和構建自我調整工作流程邁出了第一步。它們為未來的研究開闢了令人興奮的途徑,例如開發更強大的 OPTO 優化器、探索不同的軌跡傳播機制,以及研究 OPTO 的理論特性。
統計資料
在 BigBenchHard 數據集上,Trace 在優化 DSPy 程式時,準確率比人工設計的優化器高出 10%。
在模擬 Sawyer 機器人機械臂的實驗中,Trace 能夠在數十次互動中學習到複雜的控制邏輯,並在訓練和測試的初始條件下都能成功完成任務。
與 TextGrad 相比,OptoPrime 的執行速度快約 3 倍,因為 OptoPrime 在每個優化步驟中只呼叫一次 LLM,而 TextGrad 呼叫的次數與圖的大小成線性關係。