Temel Kavramlar
언어 모델 기반 에이전트가 새로운 환경에서 일반화하기 위해서는 인간 데모 없이도 자동으로 합성 데모를 생성할 수 있는 방법이 필요하다. BAGEL은 두 개의 노이즈 언어 모델 구성 요소 간의 반복적인 라운드 트립을 통해 이를 달성한다.
Özet
이 논문은 언어 모델 기반 에이전트가 디지털 환경에서 자연어 지시를 따르는 문제를 다룬다. 이러한 작업은 언어 모델 에이전트에게 매우 어려운데, 이는 언어 모델 에이전트가 종종 인간 데모 없이는 새로운 환경에 일반화하지 못하기 때문이다.
이 논문에서는 BAGEL이라는 방법을 제안한다. BAGEL은 두 개의 노이즈 언어 모델 구성 요소, 즉 궤적을 지시로 변환하는 언어 모델 레이블러와 지시를 궤적으로 변환하는 제로 샷 언어 모델 에이전트 간의 반복적인 라운드 트립을 통해 합성 데모를 생성한다. 이 과정을 통해 초기 무작위 탐험 궤적을 자연어로 잘 설명할 수 있는 궤적으로 점진적으로 변환한다.
BAGEL 데모는 문맥 학습 또는 미세 조정을 위해 사용될 수 있으며, 전문가 데모에 대한 대체품으로 활용될 수 있다. 실험 결과, BAGEL 데모를 사용하면 MiniWoB++에서 13%, ToolQA에서 2%의 성능 향상을 달성할 수 있었다. 또한 실행 오류를 최대 13배 줄일 수 있었는데, 이는 BAGEL이 환경 역학에 대한 이해를 높이는 데 도움이 되기 때문이다.
İstatistikler
제로 샷 에이전트의 평균 보상이 0.95 미만인 MiniWoB++ 10개 과제에서 BAGEL을 사용하면 평균 보상이 13% 이상 향상되었다.
ToolQA에서 BAGEL을 사용하면 평균 F1 점수가 2% 향상되었다.
BAGEL을 사용하면 MiniWoB++ 과제에서 실행 오류가 최대 13배 감소했다.
Alıntılar
"Following natural language instructions by executing actions in digital environments (e.g. web-browsers and REST APIs) is a challenging task for language model (LM) agents."
"Unfortunately, LM agents often fail to generalize to new environments without human demonstrations."
"BAGEL converts a seed set of randomly explored trajectories or synthetic instructions, into demonstrations, via round-trips between two noisy LM components: an LM labeler which converts a trajectory into a synthetic instruction, and a zero-shot LM agent which maps the synthetic instruction into a refined trajectory."