Core Concepts
LLM의 추론 능력을 활용하여 작은 강화학습 에이전트가 다양한 기술을 효과적으로 학습할 수 있는 맞춤형 환경을 생성하고 적응시킴으로써, 장기적인 과제 수행 능력을 향상시킬 수 있다.
Abstract
이 논문은 LLM(Large Language Model)의 추론 능력을 활용하여 체화된 에이전트의 학습을 돕는 EnvGen 프레임워크를 제안한다. EnvGen은 다음과 같은 4단계 과정을 통해 작동한다:
LLM에게 과제 설명, 환경 설정 가능 항목, 제약 조건 등을 제공하여 다양한 맞춤형 학습 환경을 생성하도록 한다.
작은 강화학습 에이전트를 LLM이 생성한 환경에서 학습시킨다.
에이전트를 원래의 환경에서 학습시키고 성능을 측정하여, 에이전트가 약한 기술을 파악한다.
에이전트의 성과 정보를 LLM에게 피드백으로 제공하여, LLM이 에이전트의 약한 기술을 집중적으로 학습할 수 있는 환경을 생성하도록 한다.
이 과정을 반복하면서 에이전트는 점진적으로 다양한 기술을 향상시킬 수 있다. 실험 결과, EnvGen을 통해 학습한 작은 강화학습 에이전트가 기존 최신 방법론을 능가하는 성과를 보였으며, 특히 장기적인 과제 수행 능력이 크게 향상되었다. 또한 EnvGen은 LLM 호출 횟수가 매우 적어 효율적이다.
Stats
크래프터 환경에서 EnvGen 에이전트의 '돌 곡괭이 만들기' 성공률은 31% ± 3%이다.
크래프터 환경에서 EnvGen 에이전트의 '철 곡괭이 만들기' 성공률은 38% ± 6%이다.
크래프터 환경에서 EnvGen 에이전트의 '해골 물리치기' 성공률은 10% ± 4%이다.
Quotes
"LLM의 추론 능력을 활용하여 작은 강화학습 에이전트가 다양한 기술을 효과적으로 학습할 수 있는 맞춤형 환경을 생성하고 적응시킴으로써, 장기적인 과제 수행 능력을 향상시킬 수 있다."
"EnvGen을 통해 학습한 작은 강화학습 에이전트가 기존 최신 방법론을 능가하는 성과를 보였으며, 특히 장기적인 과제 수행 능력이 크게 향상되었다."