Core Concepts
現有的評估工具與真實世界情境存在顯著差距,因此作者提出了 GTA,這是一個針對真實世界工具代理的基準測試,旨在評估大型語言模型在真實世界情境中使用工具的能力。
Abstract
GTA 基準測試介紹
這篇研究論文介紹了 GTA,一個用於評估大型語言模型在真實世界情境中使用工具能力的基準測試。
研究背景
近年來,將大型語言模型 (LLM) 與各種工具整合以開發通用代理已成為研究焦點。然而,現有的工具使用評估與真實世界情境之間存在顯著差距。目前的評估通常使用 AI 生成的查詢、單步驟任務、虛擬工具和純文字互動,無法有效揭示代理在真實世界中的問題解決能力。
GTA 的設計理念
為了應對這些挑戰,作者提出了 GTA,這是一個針對通用工具代理的基準測試,具有三個主要面向:
- **真實的使用者查詢:**由人類撰寫的查詢,具有簡單的真實世界目標,但隱含了工具的使用,需要 LLM 推理合適的工具並規劃解決方案步驟。
- **真實部署的工具:**一個配備了感知、操作、邏輯和創造力類別工具的評估平台,用於評估代理的實際任務執行效能。
- **真實的多模態輸入:**真實的圖像檔案,例如空間場景、網頁截圖、表格、程式碼片段和列印/手寫材料,用作查詢上下文,以與真實世界情境緊密結合。
GTA 的內容
GTA 包含 229 個真實世界任務和相應的可執行工具鏈,用於評估主流 LLM。它涵蓋了 252 張圖像和 14 種不同的工具,分為感知、操作、邏輯和創造力四種類別。大多數問題需要使用 2 到 3 種工具,解決步驟在 2 到 4 步之間。
評估結果
評估結果顯示,真實世界的場景查詢對現有的 LLM 構成了挑戰,即使是像 GPT-4 這樣先進的模型也難以完成這些真實世界的任務,完成率不到 50%。大多數 LLM 的完成率都低於 25%。
主要發現
- 現有 LLM 在處理真實世界工具使用任務方面存在困難。
- 目前的瓶頸主要在於參數預測。
- 不同系列的 LLM 表現出不同的行為模式。
未來研究方向
- 將多語言查詢添加到基準測試中。
- 開發更強大的 LLM,以更好地處理真實世界的工具使用任務。
Stats
GPT-4 完成不到 50% 的任務。
大多數 LLM 的完成率都低於 25%。
GPT-4o 擁有最高的成功工具呼叫次數。
Claude-3 的錯誤主要與參數格式相關,佔 82.86%。
Quotes
"Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents."
"However, there are evident gaps between existing tool-use evaluations and real-world scenarios."
"Our findings indicate that real-world scenario queries present challenges to existing LLMs, with GPT-4 completing fewer than 50% of the tasks and most LLMs managing less than 25%."