Core Concepts
웹 사이트 구조의 높은 변동성으로 인해 기존 접근법이 실패하는 문제를 해결하기 위해, 차별화된 순위 모델과 새로운 지침 합성 기술을 사용하여 대규모 언어 모델의 프롬프트를 최적으로 채우는 WILBUR 접근법을 소개한다.
Abstract
WILBUR는 웹 에이전트 연구 분야에서 일반화와 정확성을 동시에 달성하는 문제를 해결하기 위한 접근법이다. 웹 사이트 구조의 높은 변동성으로 인해 기존 접근법이 종종 실패하는 문제를 해결하고자 한다.
WILBUR의 핵심 구성요소는 다음과 같다:
- 차별화된 순위 모델: 이전 실행의 작업 시연을 최적으로 활용하여 대규모 언어 모델의 프롬프트를 채운다.
- 새로운 지침 합성 기술: 성공적인 실행과 실패한 실행을 요약하여 간단한 지침을 생성한다.
- 지능형 백트래킹 메커니즘: 실수로부터 학습하고 복구하는 기능을 제공한다.
- 자동 교과과정: 대규모 언어 모델을 활용하여 대표적인 목표를 샘플링하고, 에이전트를 실행하며, 자동으로 평가하여 교육 데이터를 생성한다.
WILBUR는 WebVoyager 벤치마크에서 최첨단 성과를 달성했다. 텍스트 전용 모델 대비 8% 향상된 성능을 보였고, 특정 웹사이트에서는 36%까지 향상되었다. 또한 멀티모달 모델과 비교해서도 5% 이내의 성능을 보였다. 추가 분석 결과, 많은 실패가 웹 운영의 엔지니어링 과제로 인한 것으로 나타났다.
Stats
전 세계에 10억 개 이상의 웹사이트가 존재한다.
WILBUR는 WebVoyager 벤치마크에서 텍스트 전용 모델 대비 8% 향상된 성능을 보였다.
WILBUR는 특정 웹사이트에서 36%까지 성능이 향상되었다.
WILBUR는 멀티모달 모델과 비교해서도 5% 이내의 성능을 보였다.
Quotes
"웹 사이트 구조의 높은 변동성으로 인해 기존 접근법이 종종 실패하는 문제를 해결하고자 한다."
"WILBUR는 WebVoyager 벤치마크에서 최첨단 성과를 달성했다."
"많은 실패가 웹 운영의 엔지니어링 과제로 인한 것으로 나타났다."