本研究通過操縱兩個數據集中的實例來構建一個新的數據集,模擬現實世界應用中的不完整場景。這些場景包括:1)必要工具不可用,2)用戶提供的信息不足,無法使用工具。
實驗結果表明,大多數LLM難以識別使用特定工具所需的額外信息,或認識到合適工具的缺失。特別是在用戶提供不完整信息或涉及真實世界工具時,LLM的表現更差。為了進一步理解這些挑戰,我們進行了全面的分析,包括人工評估和評估向模型提供API調用反饋的影響。我們還探討了模型的預測分佈以及它們在不完整場景中解釋決策的能力。
我們的研究有助於提高工具增強型LLM在實際應用中的可靠性。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Seungbin Yan... ב- arxiv.org 10-01-2024
https://arxiv.org/pdf/2406.12307.pdfשאלות מעמיקות