이 연구는 웹 에이전트의 성능 향상을 위해 다중 모달 검증과 자기 개선 메커니즘을 제안한다.
먼저 텍스트, 비전, 멀티모달 등 다양한 모달리티를 활용하여 웹 작업 자동 검증 모델을 개발하였다. 이 검증 모델은 웹 에이전트의 작업 완수 여부를 판단하고 피드백을 제공한다.
다음으로 자기 개선 메커니즘을 구현하여, 작업 실패 시 검증 모델의 피드백을 활용해 에이전트가 자체적으로 전략을 수정하고 재시도할 수 있도록 하였다.
실험 결과, 이 접근법은 WebVoyager 벤치마크의 일부 작업에서 Agent-E의 성능을 76.2%에서 81.24%로 향상시켰다. 이는 추가적인 인간 감독 없이도 웹 에이전트의 성능을 높일 수 있음을 보여준다.
모달리티별로 살펴보면, 텍스트 기반 검증기가 전반적으로 가장 좋은 성능을 보였지만, 복잡한 웹사이트의 경우 비전 기반 검증기가 더 효과적이었다. 이는 웹사이트 특성에 따라 적절한 검증 모달리티를 선택해야 함을 시사한다.
이 연구는 실제 웹 환경에서 웹 에이전트의 신뢰성과 적응성을 높이는 데 기여할 것으로 기대된다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Ruhana Azam,... pada arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00689.pdfPertanyaan yang Lebih Dalam