Основные понятия
大型語言模型(LLM)與工具的整合使其能夠感知最新信息、獲得實際交互能力並執行複雜任務。然而,當用戶提供部分信息或必要工具不可用時,這些工具增強型LLM通常會遇到不完整的情況。能否識別和管理此類情況對於確保LLM的可靠性至關重要,但這一領域的探索仍然不足。本研究旨在探討LLM是否能夠識別不完整的條件,並適當地決定何時應該避免使用工具。
Аннотация
本研究通過操縱兩個數據集中的實例來構建一個新的數據集,模擬現實世界應用中的不完整場景。這些場景包括:1)必要工具不可用,2)用戶提供的信息不足,無法使用工具。
實驗結果表明,大多數LLM難以識別使用特定工具所需的額外信息,或認識到合適工具的缺失。特別是在用戶提供不完整信息或涉及真實世界工具時,LLM的表現更差。為了進一步理解這些挑戰,我們進行了全面的分析,包括人工評估和評估向模型提供API調用反饋的影響。我們還探討了模型的預測分佈以及它們在不完整場景中解釋決策的能力。
我們的研究有助於提高工具增強型LLM在實際應用中的可靠性。
Статистика
大多數LLM難以識別使用特定工具所需的額外信息。
大多數LLM難以認識到合適工具的缺失。
LLM在用戶提供不完整信息或涉及真實世界工具時表現更差。
Цитаты
"當用戶提供部分信息或必要工具不可用時,這些工具增強型LLM通常會遇到不完整的情況。"
"能否識別和管理此類情況對於確保LLM的可靠性至關重要,但這一領域的探索仍然不足。"
"實驗結果表明,大多數LLM難以識別使用特定工具所需的額外信息,或認識到合適工具的缺失。"