이 논문은 복잡한 과제를 보다 단순한 하위 과제로 분해하여 강화 학습 에이전트가 효과적으로 학습할 수 있도록 하는 방법을 제안한다.
먼저, 긍정적 및 부정적 궤적을 활용하여 대조 학습 알고리즘을 통해 잠재적인 랜드마크 상태를 식별한다. 그 다음, 그래프 검색 알고리즘을 사용하여 각 하위 과제에 필요한 논리 술어를 식별한다.
다음으로, 대형 언어 모델(LLM)을 사용하여 각 식별된 하위 과제를 달성하기 위한 규칙 템플릿을 생성한다. 이렇게 생성된 규칙은 귀납적 논리 프로그래밍 기반 강화 학습 에이전트를 통해 세부적으로 조정된다.
실험 결과, 제안된 알고리즘이 하위 과제를 정확하게 식별하고 LLM이 생성한 규칙 템플릿이 효과적임을 보여준다. 또한 하위 과제의 필요성을 입증하고, 제안된 방법이 사전 정의된 논리 술어에 대한 의존성을 줄일 수 있음을 확인했다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询