מושגי ליבה
BAGEL은 두 개의 노이즈 언어 모델 구성 요소(LM 레이블러와 제로 샷 LM 에이전트)를 사용하여 초기 무작위 탐험 궤적을 자연어로 잘 설명되는 궤적으로 빠르게 변환합니다. 이렇게 생성된 합성 데모를 사용하여 제로 샷 LM 에이전트의 성능을 크게 향상시킬 수 있습니다.
תקציר
BAGEL은 언어 모델 기반 에이전트의 성능을 향상시키기 위한 방법입니다. 기존 접근법은 전문가의 데모를 사용하지만, 이는 새로운 환경에 대한 데모를 수집하기 어렵습니다. BAGEL은 이를 해결하기 위해 두 개의 노이즈 언어 모델 구성 요소를 사용하여 합성 데모를 생성합니다.
- 초기 탐험 단계: 무작위로 탐험하여 초기 궤적 집합을 생성합니다.
- 반복적 재라벨링 단계: LM 레이블러는 궤적을 자연어 지시로 변환하고, LM 에이전트는 지시를 다시 궤적으로 변환합니다. 이 과정을 반복하여 자연어로 잘 설명되는 궤적을 생성합니다.
- 데모 필터링: 생성된 지시-궤적 쌍이 일정 수준 이상의 점수를 받으면 합성 데모로 저장됩니다.
- 테스트 시 활용: 테스트 시 관련 합성 데모를 검색하여 에이전트의 프롬프트에 추가함으로써 성능을 향상시킵니다.
실험 결과, BAGEL은 MiniWoB++와 ToolQA 데이터셋에서 각각 13%와 2% 이상의 성능 향상을 보였습니다. 또한 실행 오류를 최대 13배 줄일 수 있었습니다.
סטטיסטיקה
제로 샷 에이전트의 평균 실행 오류 수: 3.0
BAGEL 적용 시 평균 실행 오류 수: 1.9
ציטוטים
"BAGEL은 두 개의 노이즈 언어 모델 구성 요소를 사용하여 초기 무작위 탐험 궤적을 자연어로 잘 설명되는 궤적으로 빠르게 변환합니다."
"BAGEL 데모를 사용하여 제로 샷 LM 에이전트의 성능을 크게 향상시킬 수 있습니다."