核心概念
WorkflowLLM 透過構建大規模資料集 WorkflowBench 並基於此微調大型語言模型,顯著增強了模型在自動化流程協調方面的能力。
研究論文摘要
文獻資訊: Fan, S., Cong, X., Fu, Y., Zhang, Z., Zhang, S., Liu, Y., Wu, Y., Lin, Y., Liu, Z., & Sun, M. (2024). WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models. arXiv preprint arXiv:2411.05451v1.
研究目標: 本研究旨在增強大型語言模型 (LLM) 在自動化流程協調方面的能力,以應對現有 LLM 在處理複雜、真實世界工作流程方面的局限性。
研究方法: 研究人員開發了一個名為 WorkflowLLM 的資料驅動框架,該框架包含三個主要階段:
資料收集: 從 RoutineHub 和 Apple Shortcuts 收集真實世界的工作流程資料,並將其轉錄為 Python 風格的程式碼,並使用 ChatGPT 生成不同粒度的註釋、任務計畫和任務查詢。
查詢擴展: 利用 ChatGPT 生成更多樣化和複雜的任務查詢,以豐富工作流程的種類和複雜性。
工作流程生成: 訓練一個基於收集資料的工作流程標註模型,並使用該模型為擴展的任務查詢生成工作流程,同時進行品質確認以確保資料集的完整性。
研究人員使用收集到的資料集 WorkflowBench 微調 LLaMA-3.1-8B 模型,並將其命名為 WorkflowLlama。
主要發現: 實驗結果表明,WorkflowLlama 在協調複雜工作流程方面表現出色,並在未見過的 API 上也具有顯著的泛化效能。此外,WorkflowBench 在 T-Eval 基準測試中展現出強大的零樣本泛化能力。
結論: WorkflowLLM 框架和 WorkflowBench 資料集的提出,為增強 LLM 在自動化流程協調方面的能力提供了有效的解決方案,並為 Agentic Process Automation (APA) 的發展做出了貢獻。
意義: 本研究對於推動流程自動化從基於規則的 RPA 向基於 LLM 的 APA 的範式轉變具有重要意義。
局限與未來研究方向: 儘管 WorkflowLlama 在處理複雜工作流程方面取得了顯著進展,但仍存在一些局限性,例如生成的程式碼中可能存在冗餘動作。未來研究方向包括解決程式碼冗餘問題、探索更先進的程式碼生成技術以及將 WorkflowLLM 應用於更廣泛的領域。
統計資料
現有的 LLM,即使是先進的 OpenAI GPT-4,在工作流程協調方面的能力也有限,平均只能管理 6.1 個動作。
Apple Shortcuts 作為一個廣泛使用的代表性應用程式,平均包含 70.4 個動作和 2.6 個巢狀分支/迴圈邏輯結構。
WorkflowBench 包含 106,763 個監督式微調實例,涵蓋 83 個應用程式中的 1,503 個 API。
WorkflowLlama 在未見過的指令和 API 設定下,在 CodeBLEU 和 Pass Rate 指標上均顯著優於所有基準模型,包括 GPT-4。
WorkflowBench 在 T-Eval 基準測試中取得了 77.5% 的 F1 計畫分數,展現出強大的零樣本泛化能力。