핵심 개념
언어 모델 기반 에이전트가 새로운 환경에서 일반화하기 어려운 문제를 해결하기 위해, BAGEL은 언어 모델 구성요소들 간의 반복적인 상호작용을 통해 합성 데모를 생성하고 이를 활용하여 에이전트 성능을 향상시킨다.
초록
이 논문은 언어 모델 기반 에이전트가 새로운 환경에서 일반화하기 어려운 문제를 해결하기 위한 BAGEL 방법을 제안한다. BAGEL은 두 개의 언어 모델 구성요소, 즉 트라젝토리를 지시문으로 변환하는 LM 레이블러와 지시문을 트라젝토리로 변환하는 제로샷 LM 에이전트 간의 반복적인 상호작용을 통해 합성 데모를 생성한다. 이렇게 생성된 합성 데모는 에이전트의 성능 향상을 위해 문맥 학습에 활용된다.
실험 결과, BAGEL을 활용한 에이전트가 MiniWoB++ 과제에서 13% 이상, ToolQA 과제에서 2% 이상의 성능 향상을 보였다. 또한 실행 실패율이 최대 13배 감소하는 등 긍정적인 효과가 관찰되었다. 이는 BAGEL이 에이전트의 환경 동역학에 대한 이해를 높여주기 때문인 것으로 분석된다.
통계
제로샷 에이전트의 MiniWoB++ 평균 점수는 46.8점이다.
BAGEL을 활용한 에이전트의 MiniWoB++ 평균 점수는 61.0점이다.
제로샷 에이전트의 ToolQA 평균 F1 점수는 40.9점이다.
BAGEL을 활용한 에이전트의 ToolQA 평균 F1 점수는 43.3점이다.
BAGEL을 활용한 에이전트의 실행 실패율은 제로샷 에이전트에 비해 최대 13배 감소했다.