Belangrijkste concepten
現実世界のタスクを解決するために大規模言語モデル(LLM)を様々なツールと統合することの重要性が高まっているが、既存のLLMのツール活用能力は、実際のシナリオに十分に対応できるレベルに達していない。
Samenvatting
GTAベンチマーク:現実世界のタスクにおけるLLMのツール活用能力評価
本稿では、現実世界のタスクを解決するために、大規模言語モデル(LLM)にツールを使わせる能力を評価するための新しいベンチマーク、GTA (General Tool Agents) が提案されています。
従来のツール活用能力の評価には、AIが生成したクエリ、単段階タスク、ダミーツール、テキストのみのインタラクションなどが用いられてきました。しかし、これらの評価方法は、実際のシナリオを反映しているとは言えず、LLMの真の問題解決能力を明らかにすることができませんでした。
GTAは、現実世界のシナリオをより正確に反映するために、人間が設計したクエリ、実際にデプロイされたツール、マルチモーダルなインタラクションという3つの主要な側面を特徴としています。
人間が設計した現実的なクエリ
GTAのクエリは、AIではなく人間によって設計されており、現実世界のタスクを正確に反映しています。これらのクエリは明確な目的を持つタスクを記述していますが、ツールの使用手順は暗黙的に示されています。そのため、LLMは、与えられたタスクに対処するために適切なツールを推論し、解決策の手順を計画する必要があります。
実際にデプロイされたツール
GTAは、知覚、操作、論理、創造性などの様々なカテゴリにわたるツールを備えた評価プラットフォームを提供します。すべてのツールは、テキストによるシミュレーションではなく、実際に実行可能なものです。各タスクには、各ツール使用ステップと最終的な回答を含む、詳細かつ実行可能なグランドトゥルーツールチェーンが用意されています。
マルチモーダルな入力
各クエリには、空間シーン、Webページのスクリーンショット、表、コードスニペット、印刷物/手書き資料など、1つまたは2つの実際の画像ファイルが添付されており、ユーザーのクエリのコンテキストとして機能します。LLMは、マルチモーダルなコンテキストとユーザーのクエリに基づいて問題を解決する必要があります。この設定は、現実世界の問題解決シナリオと密接に一致しています。