核心概念
即使是最先進的大型語言模型,在需要根據分散的經驗資訊進行推理以做出決策時,仍然存在缺陷,特別是在存在干擾因素的情況下。
本研究論文介紹了一個名為 OEDD(Operationalize Experience Despite Distraction)的語料庫,旨在評估大型語言模型(LLM)在面對干擾因素時,根據不同經驗情境進行推理和決策的能力。
語料庫設計理念
OEDD 語料庫的設計理念是模擬真實世界中代理可能遇到的情境,這些情境需要代理根據過去的經驗資訊做出決策。與多步驟任務完成測試不同,OEDD 測試側重於單一動作推斷步驟,並透過預先設定的代理歷史記錄,控制環境累積的上下文資訊,創造需要特定推理過程的代理情境。
語料庫組成
OEDD 語料庫包含 16 個經過人工標註驗證的場景,每個場景都包含預先編寫的代理歷史記錄,代理必須根據這些歷史記錄中的不同經驗資訊做出決策,同時還需應對干擾因素。這些場景被擴展成時間上獨立的片段,並組合成 12 種不同的推理配置,最終形成 192 個獨特的測試配置。
測試方法
研究人員使用 GPT-3.5 Turbo、GPT-4o 和 Gemini 1.5 Pro 三種最先進的 LLM 進行了測試,並採用了一種簡化的思維鏈提示策略。
評估指標
研究人員透過計算模型在每個測試配置中選擇較佳動作的概率來評估模型的性能。
結果分析
實驗結果顯示,即使是最先進的 LLM,在需要根據分散的經驗資訊進行推理以做出決策時,仍然存在缺陷,特別是在存在干擾因素的情況下。當關鍵決策資訊只能透過推理兩個分散的事實得出,且這些事實之後出現了微不足道的干擾因素時,LLM 的性能會顯著下降。