Grunnleggende konsepter
LLMs의 사전 지식을 활용하여 강화학습 에이전트의 행동을 평가하고 보상 형성을 자동화할 수 있다.
Sammendrag
이 논문은 LLMs(Large Language Models)의 제로샷 능력을 활용하여 강화학습(RL) 에이전트의 행동을 평가하고 보상 형성을 자동화하는 방법을 제안한다.
강화학습에서 신용 할당 문제는 중요한 과제이다. 특히 보상이 지연되고 희소한 경우, 에이전트가 각 행동의 기여도를 파악하기 어려워진다. 기존의 해결책인 보상 형성과 계층적 강화학습은 많은 인간의 개입이 필요하여 확장성이 제한적이다.
이 연구에서는 CALM(Credit Assignment with Language Models)이라는 새로운 접근법을 제안한다. CALM은 LLMs를 활용하여 과제를 기본 하위 목표로 분해하고, 각 상태-행동-상태 전이에서 이러한 하위 목표의 달성 여부를 평가한다. 이를 통해 희소하고 지연된 보상에 대한 보조 보상 신호를 제공하여 학습 과정을 개선할 수 있다.
실험 결과, LLMs는 제로샷 설정에서도 사람의 주석과 유사한 수준으로 신용 할당을 수행할 수 있음을 보여준다. 이는 LLMs의 사전 지식이 강화학습에서 신용 할당을 위한 유용한 선행 지식이 될 수 있음을 시사한다.
Statistikk
보상이 지연되고 희소한 경우 강화학습 에이전트가 각 행동의 기여도를 파악하기 어렵다.
기존의 보상 형성과 계층적 강화학습 방법은 많은 인간의 개입이 필요하여 확장성이 제한적이다.
LLMs는 과제를 기본 하위 목표로 분해하고 각 상태-행동-상태 전이에서 이러한 하위 목표의 달성 여부를 평가할 수 있다.
CALM은 LLMs의 이러한 능력을 활용하여 보조 보상 신호를 제공함으로써 학습 과정을 개선할 수 있다.
Sitater
"LLMs의 사전 지식이 강화학습에서 신용 할당을 위한 유용한 선행 지식이 될 수 있음을 시사한다."