核心概念
VideoWebArenaは、長文脈ビデオを理解し、その情報を活用して複雑なウェブタスクを遂行するマルチモーダルエージェントの能力を評価するためのベンチマークである。
要約
VideoWebArenaの概要
本稿では、長文脈マルチモーダルエージェントのビデオ理解能力を評価するための新しいベンチマークであるVideoWebArena(VideoWA)を紹介する。VideoWAは、現実世界のタスクを反映した、視覚的に接地されたベンチマークであり、エージェントが現実的なドメインや環境において、ビデオ理解に関するエージェント能力をテストすることを目的としている。
手動で作成されたビデオチュートリアルに基づく2,021件のウェブエージェントタスクで構成されている。
ビデオの合計再生時間は約4時間で、Reddit、Classifieds、Shopping、Shopping Admin、Map、Gitlabの6つの主要なテーマ環境が含まれている。
スキル保持と事実保持という2つの主要な領域に焦点を当てた、長文脈ビデオベースのエージェントタスクの分類を定義している。
スキル保持タスク:エージェントが、与えられた人間のデモンストレーションを使用してタスクを効率的に完了できるかどうかを評価する。
事実保持タスク:エージェントが、ビデオからタスクの完了に必要な情報を取得できるかどうかを評価する。
各タスクは、タスクの目的である「意図」、ビデオベースの質問である「中間意図」、および環境とLLMエージェントによって与えられた応答に基づいて0または1のスコアを返す自動評価関数を持っている。
各タスクには、容易、中程度、困難に分けられるエージェント難易度も設定されている。
VideoWAを用いて、GPT-4oとGemini 1.5 Proという、ビデオに対応した最先端のLLMを評価した結果、これらのモデルは限定的な範囲ではビデオ対応エージェントとして機能するものの、人間のレベルのパフォーマンスには程遠く、現在の最先端の長文脈モデルの情報検索能力とエージェント能力には大きな隔たりがあることが明らかになった。