マルチホップマルチモーダルのウェブタスクを解決するためには、長距離の推論能力と多様なモダリティの理解が必要である。しかし、現在のウェブエージェントはこれらの能力が不足しており、複雑なタスクを完遂することが困難である。