이 논문은 GPT-4V(ision)을 활용한 일반화된 웹 에이전트 SEEACT를 제안한다. 주요 내용은 다음과 같다:
GPT-4V(ision)은 웹 페이지를 시각적으로 이해하고 텍스트 형태의 행동 계획을 생성하는 강력한 능력을 보여준다. 오라클 그라운딩 방법을 사용할 경우 SEEACT는 실제 웹사이트에서 51.1%의 과제를 성공적으로 완수할 수 있다.
그러나 행동 계획을 실제 웹사이트 상의 HTML 요소와 연결하는 그라운딩 문제가 여전히 큰 과제로 남아있다. 제안된 다양한 그라운딩 방법들은 오라클 그라운딩 대비 20-30% 정도의 성능 격차를 보인다.
대형 언어 모델(LLM)과 대형 멀티모달 모델(LMM) 간 비교 결과, LMM인 GPT-4V가 LLM인 GPT-4나 FLAN-T5에 비해 월등한 성능을 보인다.
온라인 평가에서는 오프라인 평가 결과보다 전체 과제 성공률이 크게 향상되었는데, 이는 실제 웹사이트에서 완수할 수 있는 다양한 행동 계획이 존재하기 때문이다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor