本研究では、マルチホップマルチモーダルのウェブタスクを評価するためのMMInAベンチマークを提案する。MMInAは以下の特徴を持つ:
14のさまざまなウェブサイトを対象とし、1,050の人間が作成したマルチホップマルチモーダルタスクを含む。これにより、現実的な環境でのエージェントの能力を評価できる。
タスクの完了に必要なホップ数は平均2.85で、最長で10ホップに及ぶ。これにより、長距離の推論能力を評価できる。
テキストと画像の両方の情報を活用する必要があるため、マルチモーダルな理解能力が重要となる。
実験の結果、現在のSOTAモデルはマルチホップタスクの完遂率が低く、特に初期のホップでの失敗が多いことが明らかになった。これは、長文脈の理解と多様なモダリティの統合が課題であることを示している。そこで、過去のタスクの軌跡を活用するメモリ拡張手法を提案し、エージェントのパフォーマンスを大幅に向上させることができた。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ziniu Zhang,... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09992.pdfDeeper Inquiries