本論文では、リアルワールドのウェブサイト操作を対話形式で行うWebLINXベンチマークを提案する。このベンチマークには100,000以上の対話が含まれ、2,300人の専門家による2,337のデモンストレーションが収録されている。155のリアルワールドのウェブサイトにわたる広範な操作パターンをカバーしており、エージェントの訓練と評価に使用できる。
大量の情報が存在するため、大規模言語モデル(LLM)はリアルタイムでウェブページ全体を処理できない。この問題を解決するため、関連要素をランキングする検索型モデルを設計した。選択された要素、スクリーンショット、操作履歴を使用して、人間の行動を再現するためのさまざまなモデルを評価した。実験では、小規模な文字列モデルが最良のゼロショットLLMを上回るが、大規模な多モーダルモデルも苦戦する。これらの結果は、新しい状況に一般化できる大規模な多モーダルモデルの必要性を示唆している。
To Another Language
from source content
arxiv.org
Deeper Inquiries