核心概念
本文介紹了一種名為 Genie 的新型框架,用於構建基於大型語言模型 (LLM) 的知識整合任務代理,並提出了一種高級規範語言 Genie Worksheet,允許開發者對對話流程進行詳細控制,從而提高代理的可靠性和準確性。
簡介
本文介紹 Genie,一個用於創建任務導向型對話代理的程式化框架,旨在處理複雜的用戶交互和知識查詢。
與 LLM 不同,Genie 通過其表達性規範 Genie Worksheet 提供可靠的、基於事實的回應,並可控制代理策略。
與對話樹相比,Genie 對不同的用戶查詢具有彈性,能夠有效利用知識源,並通過其聲明式範例提供簡單的策略編程方式。
Genie Worksheet 的設計與原理
Genie Worksheet 的設計目標是為開發者提供一種高級、簡潔、表達力強的任務規範語言。
Worksheet 的設計靈感來自於網路表單的多功能性,包含任務工作表和知識庫工作表兩種。
任務工作表允許開發者定義與對話相關的變數,並根據輸入信息描述要執行的操作。
知識庫工作表允許開發者定義結構化或非結構化知識庫的結構,以便代理可以回答用戶問題。
Genie:可靠的基於 LLM 的對話代理
Genie 使用正式的對話狀態來跟踪對話,以解決 LLM 在維護上下文信息方面的局限性。
Genie 代理包含三個組件:解析器、代理策略和回應生成器。
解析器將用戶語句轉換為對話狀態的更改,並使用知識解析器將自然語言查詢轉換為正式查詢。
代理策略根據更新後的對話狀態和工作表規範決定代理操作。
回應生成器根據對話狀態、代理操作和用戶語句生成代理回應。
評估
在 StarV2 數據集的複雜邏輯領域,Genie 的性能優於最先進的方法,最高可提高 20.5%。
通過對 62 名參與者進行的真實用戶研究,Genie 在執行準確率、對話行為準確率和目標完成率方面均顯著優於 GPT-4(具有函數調用功能)。
結論
Genie 是一個用於構建知識整合任務代理的新型框架,它使用 Genie Worksheet 提供對對話流程的詳細控制。
評估結果表明,Genie 在準確性和可靠性方面優於傳統的基於 LLM 的系統和對話樹。
統計資料
使用 Genie 構建的代理在 StarV2 數據集的複雜邏輯領域的性能優於最先進的方法,最高可提高 20.5%。
在一項包含 62 名參與者的真實用戶研究中,Genie 的執行準確率達到 86.5%,對話行為準確率達到 89.2%,目標完成率達到 82.8%,分別超過 GPT-4(具有函數調用功能的基準)21.1%、20.1% 和 61%。