Core Concepts
대규모 언어 모델의 제로샷 생성, 코드 작성, 문맥 내 개선 기능을 활용하여 진화적 최적화를 통해 복잡한 태스크에 대한 보상 함수를 자동으로 생성할 수 있다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 강력한 제로샷 생성, 코드 작성, 문맥 내 개선 기능을 활용하여 진화적 최적화를 통해 복잡한 강화학습 태스크에 대한 보상 함수를 자동으로 생성하는 EUREKA 알고리즘을 제안한다.
EUREKA는 태스크 설명과 환경 소스 코드만을 입력으로 받아 보상 함수 코드를 제로샷 생성한다. 이후 반복적인 보상 후보 샘플링, GPU 가속 보상 평가, 보상 반영 과정을 통해 보상 함수를 점진적으로 개선한다.
EUREKA는 29개의 오픈소스 강화학습 환경에서 인간 전문가가 설계한 보상 함수를 83%의 태스크에서 능가하며, 평균 52%의 성능 향상을 달성한다. 특히 복잡한 데스크터리 조작 태스크에서 두드러진 성과를 보이며, 커리큘럼 러닝과 결합하여 Shadow Hand 에이전트의 펜 회전 기술을 처음으로 구현한다.
또한 EUREKA는 기존 인간 보상 함수를 개선하거나 인간 피드백을 활용하여 더욱 인간 선호도에 부합하는 보상 함수를 생성할 수 있는 새로운 무경사 문맥 학습 접근법을 제시한다.
Stats
29개 오픈소스 강화학습 환경에서 EUREKA는 인간 전문가 보상 함수 대비 83%의 태스크에서 성능 향상
EUREKA의 평균 성능 향상은 52%
Quotes
"EUREKA는 태스크 설명과 환경 소스 코드만을 입력으로 받아 보상 함수 코드를 제로샷 생성한다."
"EUREKA는 29개의 오픈소스 강화학습 환경에서 인간 전문가가 설계한 보상 함수를 83%의 태스크에서 능가하며, 평균 52%의 성능 향상을 달성한다."
"EUREKA는 기존 인간 보상 함수를 개선하거나 인간 피드백을 활용하여 더욱 인간 선호도에 부합하는 보상 함수를 생성할 수 있는 새로운 무경사 문맥 학습 접근법을 제시한다."