이 논문은 계층적 강화 학습(HRL)에서 상위 레벨 정책과 하위 레벨 정책 간의 협력을 증진시키는 새로운 프레임워크인 GCMR(Guided Cooperation via Model-based Rollout)을 제안한다.
GCMR는 다음 3가지 핵심 요소로 구성된다:
모델 기반 롤아웃을 통한 오프 정책 보정: 누적 상태 전이 오류를 완화하고 샘플 효율을 높이기 위해 학습된 동적 모델을 활용한다.
모델 기반 상한선을 이용한 경사 페널티: 하위 레벨 Q 함수 경사도를 제한하여 행동 정책의 안정성을 높인다.
1단계 롤아웃 기반 계획: 상위 레벨 비평가를 활용하여 하위 레벨 정책을 전역적 과제 정보로 안내함으로써 국소적 함정을 피한다.
이러한 GCMR의 3가지 핵심 요소는 상위 레벨과 하위 레벨 간의 협력을 크게 증진시킬 것으로 기대된다. 실험 결과, GCMR를 ACLG(HIGL의 분리된 변형)와 통합하면 다양한 기준선 및 최신 알고리즘에 비해 더 안정적이고 강력한 정책 개선 성능을 보인다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究