Core Concepts
웹 페이지 스크린샷의 시각적 정보를 활용하여 HTML 요소의 문맥을 향상시킴으로써 웹 탐색 성능을 개선할 수 있다.
Abstract
이 논문은 실제 웹사이트에서의 자동화된 웹 탐색 문제를 다룹니다. 기존 연구는 주로 HTML 문서를 입력으로 사용했지만, HTML 문서만으로는 각 요소의 문맥이 명확하지 않아 적절한 행동을 선택하기 어려웠습니다.
이 논문에서는 HTML 요소의 "이중 시각"을 활용하여 문맥을 향상시키는 Dual-View Contextualized Representation (DUAL-VCR)을 제안합니다. 구체적으로:
HTML 요소의 스크린샷 상 위치 정보를 활용하여 주변 요소들과의 관계를 인코딩합니다.
각 요소의 시각적 특징과 텍스트 특징을 함께 고려하여 더욱 풍부한 표현을 학습합니다.
이를 통해 요소 랭킹과 행동 예측 모듈의 성능이 향상되었습니다. 실제 웹사이트 데이터셋 Mind2Web에서 실험한 결과, DUAL-VCR이 기존 방법보다 우수한 성능을 보였습니다.
Stats
웹사이트 137개, 과제 2,350개로 구성된 Mind2Web 데이터셋은 실제 웹사이트 기반의 가장 큰 웹 탐색 벤치마크이다.
웹페이지당 평균 1,135개의 HTML 요소와 44,402개의 토큰이 포함되어 있어, 기존 연구에 비해 훨씬 더 복잡한 환경을 제공한다.