核心概念
ウェブページのスクリーンショットを活用して、ウェブページ要素の周辺要素の視覚的・テキスト的特徴を組み合わせることで、ウェブナビゲーションタスクの解決に有効な要素表現を得ることができる。
摘要
本論文では、ウェブナビゲーションを支援するために、ウェブページ要素の「双方向ビジュアルコンテキスト化」を提案している。
ウェブページのHTMLドキュメントだけでは、各要素の文脈が明確でない場合があり、適切な行動を選択するのが困難になる。そこで本手法では、ウェブページのスクリーンショットを活用して、各要素の周辺要素の視覚的・テキスト的特徴を組み合わせることで、より有効な要素表現を得ることを目指している。
具体的には以下の2つのステップを行う:
- 要素ランカー: 各要素の周辺要素の視覚的・テキスト的特徴を組み合わせて要素を表現し、重要度を評価する。
- 行動予測器: 上位候補の要素とその周辺要素の特徴を組み合わせて、次の行動を予測する。
提案手法は、Mind2Webベンチマークにおいて、様々な指標で従来手法を上回る性能を示している。特に、視覚的特徴と周辺要素の情報を組み合わせることで、要素の文脈を効果的に捉えられることが確認された。
統計資料
ウェブページには平均1,135個のHTML要素が含まれ、44,402個のトークンから構成されている。
提案手法のDUAL-VCRVNEI-TXT+VISは、Cross-Taskにおいて要素精度47.0%、操作F1値78.7%、ステップ成功率46.0%を達成した。
引述
"ウェブページのスクリーンショットを活用して、各要素の周辺要素の視覚的・テキスト的特徴を組み合わせることで、より有効な要素表現を得ることを目指している。"
"提案手法は、Mind2Webベンチマークにおいて、様々な指標で従来手法を上回る性能を示している。"