이 논문은 대형 언어 모델(LLM)이 웹 브라우저와 같은 복잡한 환경에서 에이전트 작업을 수행하는 능력을 자체적으로 개선할 수 있는지 탐구한다.
주요 내용은 다음과 같다:
에이전트 모델의 성능 향상을 위해 합성 데이터 세트를 생성하는 방법을 제안한다. 이 데이터에는 기존 작업에 대한 "가능한" 트레이저리와 모델이 생성한 새로운 작업 및 솔루션 트레이저리가 포함된다.
이 합성 데이터로 에이전트 모델을 미세 조정하여 WebArena 벤치마크에서 31% 향상된 성능을 달성했다.
에이전트 모델의 성능, 견고성, 기능 획득 및 생성된 트레이저리의 품질을 평가하기 위한 새로운 평가 지표를 제안했다.
반복적인 자체 개선 실험을 통해 추가적인 성능 향상이 제한적임을 확인했다.
이 연구는 복잡한 환경에서 작업을 수행하는 LLM 에이전트의 자체 개선 능력을 입증하고, 이를 위한 새로운 기술과 평가 지표를 제안했다는 점에서 의의가 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문