이 논문은 웹 내비게이션 및 기기 제어 에이전트의 성능을 자동으로 평가하고 개선하는 방법을 제안한다.
먼저, 두 가지 접근법을 통해 도메인 일반 자동 평가 모델을 개발했다. 첫 번째는 종단 간 접근법으로 GPT-4V와 같은 고급 비전-언어 모델을 사용한다. 두 번째는 모듈식 접근법으로 비전 모델과 언어 모델을 순차적으로 사용한다.
이 평가 모델들의 성능을 WebArena와 Android-in-the-Wild 벤치마크에서 검증했다. 모델들은 각각 82.1%와 92.9%의 정확도로 인간 평가와 일치했다. 이는 기존의 단일 단계 참조 기반 메트릭보다 훨씬 나은 결과이다.
이어서 이 평가 모델을 활용하여 기존 에이전트의 성능을 개선했다. WebArena에서 Reflexion 기법을 통해 최대 29%의 상대적 성능 향상을, iOS 기기 제어 도메인에서는 필터링된 행동 모방 학습을 통해 75%의 상대적 성능 향상을 달성했다.
이 연구는 도메인 일반 자동 평가 모델이 에이전트 성능 개선에 효과적으로 활용될 수 있음을 보여준다. 특히 실제 환경에서 평가 함수나 인간 감독이 부족한 경우에 유용할 것으로 기대된다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Jiayi Pan,Yi... um arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06474.pdfTiefere Fragen