本研究探討大型語言模型(LLM)主動尋求使用者支援的能力。研究動機是,當LLM生成錯誤輸出時,可從多個角度分析問題:一是模型缺乏滿足指令的能力,需要提升模型能力;另一是模型可能需要額外支援才能完成任務。因此,本研究旨在調查LLM是否能夠識別何時需要尋求使用者支援。
由於提供支援需要使用者付出額外努力,因此存在「LLM性能提升」與「使用者負擔」之間的權衡。因此,本研究提出了兩個研究問題:1)如何設計評估指標來量化這種權衡?2)LLM如何有效管理這種權衡,有哪些有效的策略?
本研究以文本到SQL任務為案例研究,選擇這個任務的原因包括:1)有實際應用前景,讓一般用戶能夠用自然語言查詢數據;2)自然語言查詢存在固有的模糊性,導致SQL代碼生成存在不確定性,適合需要額外使用者支援的情境;3)BIRD數據集提供了人工標註的外部知識,為研究提供了寶貴的使用者支援來源。
本研究的主要貢獻包括:1)提出了評估性能提升與使用者負擔權衡的指標;2)進行了各種平衡這種權衡的實驗,提供了LLM尋求使用者支援能力以及提高性能的有效策略的見解。
實驗結果顯示:1)「執行後詢問」策略能夠持續改善LLM的性能-負擔權衡,但有些LLM無法超越隨機基線;2)許多當前LLM僅依靠指令(x)和生成的輸出(ˆy)無法確定需要支援,需要依賴外部反饋(如SQL執行結果ˆr)才能超越隨機基線;3)部分LLM在僅使用指令(x)或生成輸出(ˆy)的情況下也能超越隨機基線,但仍可通過包含執行結果(ˆr)進一步提升性能-負擔權衡。
進一步分析發現,LLM的兩個關鍵能力是:1)識別何時需要尋求支援的能力;2)有效利用支援的能力。這兩個能力的平衡決定了整體的性能-負擔權衡。未來研究可以進一步探討如何提升這兩個能力。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Cheng-Kuang ... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2407.14767.pdfDeeper Inquiries