核心概念
평균 보상 MDP에서 정책 그래디언트의 전역 수렴 분석
统计
정책 그래디언트 반복은 O(1/T)의 서브선형 속도로 최적 정책으로 수렴
할인된 보상 MDP의 성능 한계는 O(1/(1-γ)^5)로 증가
引用
"우리의 주요 기여는 정책 그래디언트 알고리즘이 평균 보상 MDP에 대해 수렴하고 유한 시간 성능 보장을 얻는 것입니다."
"기존 할인된 보상 성능 한계와는 달리, 우리의 성능 한계는 기저 MDP의 복잡성을 포착하는 상수에 명시적으로 의존합니다."