이 논문은 웹 내비게이션 및 기기 제어 에이전트의 성능을 자동으로 평가하고 개선하는 방법을 제안한다.
먼저, 두 가지 접근법을 통해 도메인 일반 자동 평가 모델을 개발했다. 첫 번째는 종단 간 접근법으로 GPT-4V와 같은 고급 비전-언어 모델을 사용한다. 두 번째는 모듈식 접근법으로 비전 모델과 언어 모델을 순차적으로 사용한다.
이 평가 모델들의 성능을 WebArena와 Android-in-the-Wild 벤치마크에서 검증했다. 모델들은 각각 82.1%와 92.9%의 정확도로 인간 평가와 일치했다. 이는 기존의 단일 단계 참조 기반 메트릭보다 훨씬 나은 결과이다.
이어서 이 평가 모델을 활용하여 기존 에이전트의 성능을 개선했다. WebArena에서 Reflexion 기법을 통해 최대 29%의 상대적 성능 향상을, iOS 기기 제어 도메인에서는 필터링된 행동 모방 학습을 통해 75%의 상대적 성능 향상을 달성했다.
이 연구는 도메인 일반 자동 평가 모델이 에이전트 성능 개선에 효과적으로 활용될 수 있음을 보여준다. 특히 실제 환경에서 평가 함수나 인간 감독이 부족한 경우에 유용할 것으로 기대된다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問