大型語言模型 (LLM) 在處理複雜任務時,將問題分解成可執行的工作流程至關重要。WORFBENCH,一個涵蓋多方面情境和複雜圖形工作流程結構的統一工作流程生成評測基準,以及WORFEVAL,一個利用子序列和子圖匹配算法的系統評估協議,被提出用於評估 LLM 代理生成工作流程的能力。