核心概念
本文提出了一種動態策略規劃方法 DyPlan,用於提高大型語言模型在問答任務中的效率和性能,並通過引入驗證和自我修正機制,進一步提升了模型的回答質量。
摘要
本研究提出了一種名為 DyPlan 的新型動態策略規劃技術,旨在提升大型語言模型(LLM)在問答任務中的性能和成本效益。DyPlan 引入了一個初始決策步驟,根據輸入問題選擇最合適的策略,並相應地指導 LLM 的 پاسخ generation。我們將 DyPlan 擴展為 DyPlan-verify,添加了內部驗證和校正過程,以進一步豐富生成的答案。在三個著名的多跳問答(MHQA)數據集上進行的實驗表明,與最佳基準模型相比,DyPlan 可以將模型性能提高 7-13%,同時將成本降低 11-32%。
研究背景
問答(QA)是大型語言模型(LLM)的一項重要任務,涵蓋了從簡單查詢到需要推理、外部知識、逐步規劃或這些策略組合的各種問題類型。然而,對所有不同類型的問題都採用單一策略是次優的,並且在生成的輸出標記和執行的检索方面成本效益非常低。
DyPlan 方法
DyPlan 的核心思想是在 LLM 中引入類似人類的認知能力,通過動態策略規劃來確定針對每個問題的最有效方法。DyPlan 主要利用三個組件:
決策(Decision): 負責動態選擇最佳策略。通過向 LLM 展示一個策略池及其描述,並提示它利用其自信心來選擇最合適和最有效的策略。
執行(Execution): 根據決策組件選擇的策略生成答案。
驗證(Verification): 可選組件,僅在 DyPlan-verify 中使用。評估執行輸出(即答案)的有效性,通過提示 LLM 利用其自知和信心來評估答案的合理性和正確性。
DyPlan 的基本版本 (DyPlan-base) 採用低成本的決策-執行流程。而 DyPlan-verify 則利用決策-執行-驗證的迭代循環。如果驗證失敗,流程將返回決策組件以選擇替代策略;否則,流程將以執行答案退出循環。
實驗結果
在 HotpotQA、2WikiMultihopQA 和 Musique 三個複雜的基於維基百科的多跳問答(MHQA)數據集上進行的實驗表明,DyPlan 在模型性能和成本效益方面均優於現有方法。DyPlan-verify 在性能上進一步提升,同時有效降低了成本。
分析
分析表明,DyPlan 具有更好的策略規劃能力和更強的校準能力。驗證步驟有助於模型更好地與最優策略保持一致,從而提高模型校準能力。
結論和未來方向
DyPlan 為問答任務提供了一種成本效益高且具有適應性的解決方案,可以有效地利用各種技術的優勢,同時最大限度地減少計算開銷。未來的工作可以探索整合部分思維和動態工具使用,以進一步改進 DyPlan。
統計資料
DyPlan 可以將模型性能提高 7-13%,同時將成本降低 11-32%。
在 2WikiMultihopQA 數據集上,DyPlan 的性能提升了 16%,成本降低了 52%。
DyPlan-verify 在性能上提升了 24%,成本降低了 35%。
DyPlan 和 DyPlan-verify 的性能提升幅度為 6%-10%,成本降低幅度為 13%-20%(token)和 17%-24%(retrieval)。