المفاهيم الأساسية
本稿では、大規模言語モデル(LLM)の計画能力を評価するための新しいベンチマークであるGameTraversalBenchmark(GTB)を紹介する。GTBは、LLMが2Dグリッドベースのゲームマップ内を効率的に移動し、目標を達成できるかどうかを評価する。
大規模言語モデル(LLM)の計画能力を、2Dグリッドベースのゲームマップの踏破タスクを通して評価する。
Word2Worldアルゴリズムを用いて、多様なサイズとパターンの2Dゲームマップのデータセットを作成する。
各マップには、LLMエージェントが順番に到達する必要のある目標座標が設定されている。
LLMエージェントは、現在の位置から目標位置までの移動アクションのシーケンスを生成する。
評価指標として、目標到達までのアクション数、生成エラー数、目標座標への到達精度などを用いる。
GPT-4-Turbo、Claude-3-Opus、LLaMa-3など、様々なLLMをGTBで評価する。