복잡한 과제를 보다 단순한 하위 과제로 분해하여 강화 학습 에이전트가 효과적으로 학습할 수 있도록 하는 방법을 제안한다. 이를 위해 긍정적 및 부정적 궤적을 활용하여 랜드마크를 식별하고, 대형 언어 모델(LLM)을 사용하여 각 하위 과제를 달성하기 위한 규칙 템플릿을 생성한다. 이렇게 생성된 규칙은 귀납적 논리 프로그래밍 기반 강화 학습 에이전트를 통해 세부적으로 조정된다.


coremsg

복잡한-과제를-랜드마크-기반-작업-분해를-통한-llm-강화-학습


복잡한 과제를 랜드마크 기반 작업 분해를 통한 LLM 강화 학습