이 논문은 대형 언어 모델(LLM)의 지식을 활용하여 오프라인 강화 학습을 통해 에이전트의 기술 습득 능력을 향상시키는 KALM 방법을 제안한다.
KALM은 다음과 같은 3단계로 구성된다:
LLM 환경 내 정착 단계: LLM이 환경 내 상태, 행동, 동역학 등을 이해할 수 있도록 감독 학습을 통해 미세 조정한다.
롤아웃 생성 단계: 미세 조정된 LLM을 활용하여 새로운 기술에 대한 가상의 롤아웃을 생성한다.
기술 습득 단계: 오프라인 강화 학습을 통해 실제 데이터와 LLM이 생성한 가상 데이터를 모두 활용하여 에이전트의 정책을 학습한다.
실험 결과, KALM은 기존 오프라인 강화 학습 방법에 비해 새로운 과제에서 월등한 성능을 보였다. 특히 LLM이 생성한 가상 롤아웃을 활용함으로써 에이전트가 기존 데이터에 없는 새로운 기술을 습득할 수 있었다. 이는 LLM의 방대한 지식을 효과적으로 활용하여 에이전트의 기술 습득 능력을 향상시킬 수 있음을 보여준다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Jing-Cheng P... om arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09248.pdfDiepere vragen