핵심 개념
단일 언어 모델이 자기 수정을 통해 텍스트 기반 게임 환경에서 작업을 성공적으로 완료할 수 있도록 하여 보다 발전된 자율 에이전트의 길을 열어줍니다.
초록
자율 에이전트를 향하여: 언어 모델의 적응형 계획, 추론 및 행동
본 연구 논문에서는 단일 언어 모델을 사용하여 텍스트 기반 게임에서 작업을 완료하기 위한 새로운 문맥 내 학습 알고리즘인 SALA(Self-Adaptive Language Agent)를 제안합니다. SALA는 이전의 실패로부터 학습하고, 추론 프로세스를 자체적으로 조정하여 작업 완료율을 높이는 것을 목표로 합니다.
본 연구의 주요 목표는 단일 언어 모델을 사용하여 텍스트 기반 게임 환경에서 작업을 완료하는 능력을 향상시키는 것입니다. 이는 언어 모델이 이전 시도의 실패로부터 학습하고 그에 따라 행동을 조정할 수 있도록 하는 새로운 문맥 내 학습 알고리즘을 통해 달성됩니다.
연구팀은 ALFWorld 환경에서 다양한 작업을 완료하기 위해 ReAct 프롬프팅을 사용하여 여러 오픈 소스 LLM을 테스트했습니다. 가장 성공률이 높은 모델인 gemma-2-9b-it를 선택하여 SALA를 개발했습니다. SALA는 ReAct 프롬프팅을 기반으로 하지만, 이전 시도의 실패로부터 학습하기 위해 Reflexion에서 영감을 받은 자기 수정 메커니즘을 통합합니다. 에이전트가 작업에 실패하면 "New plan:"이라는 문자열 뒤에 수정 텍스트를 생성하여 후
속 시도를 안내합니다.