本論文では、ウェブナビゲーションを支援するために、ウェブページ要素の「双方向ビジュアルコンテキスト化」を提案している。
ウェブページのHTMLドキュメントだけでは、各要素の文脈が明確でない場合があり、適切な行動を選択するのが困難になる。そこで本手法では、ウェブページのスクリーンショットを活用して、各要素の周辺要素の視覚的・テキスト的特徴を組み合わせることで、より有効な要素表現を得ることを目指している。
具体的には以下の2つのステップを行う:
提案手法は、Mind2Webベンチマークにおいて、様々な指標で従来手法を上回る性能を示している。特に、視覚的特徴と周辺要素の情報を組み合わせることで、要素の文脈を効果的に捉えられることが確認された。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Jihyung Kil,... om arxiv.org 04-02-2024
https://arxiv.org/pdf/2402.04476.pdfDiepere vragen