이 연구 논문에서는 일반 매개변수화를 사용하여 제약 마르코프 결정 프로세스(CMDP)를 해결하기 위한 새로운 알고리즘인 Primal-Dual Accelerated Natural Policy Gradient (PD-ANPG)를 제안합니다.
이 연구의 주요 목표는 일반 매개변수화를 사용하는 CMDP에서 최적의 정책을 찾는 데 필요한 샘플 복잡성을 줄이는 것입니다. 기존의 알고리즘은 샘플 복잡성이 높아 상태 공간이 크거나 무한한 실제 시나리오에는 적합하지 않습니다.
PD-ANPG 알고리즘은 기존의 primal-dual NPG 알고리즘을 기반으로 하지만, 내부 루프에서 가속 확률적 경사 하강법(ASGD)을 사용하여 NPG의 추정치를 계산한다는 점이 다릅니다. 이 알고리즘은 라그랑주 함수의 전역적 수렴을 NPG의 1차 및 2차 추정 오류와 연관시키는 전역-로컬 수렴 보조정리를 통해 샘플 복잡성을 개선합니다. 또한, NPG 추정의 편향을 비확률적 경사를 갖는 ASGD 프로그램의 수렴 오류로 해석하여 샘플 효율성을 더욱 향상시킵니다.
PD-ANPG 알고리즘은 일반 매개변수화된 정책에 대해 Õ((1 − γ)^−7ε^−2) 샘플 복잡성으로 ε 전역 최적성 갭과 ε 제약 위반을 보장합니다. 여기서 γ는 할인 계수입니다. 이는 일반 매개변수화된 CMDP에서 최첨단 샘플 복잡성을 O((1 − γ)^−1ε^−2)만큼 개선한 것이며 ε^−1에서 이론적 하한을 달성한 것입니다.
일반 매개변수화는 상태 공간이 크거나 무한한 CMDP를 처리하는 데 적합하기 때문에 이 연구는 상당한 의미를 지닙니다. PD-ANPG 알고리즘은 이러한 문제에 대한 샘플 효율적인 솔루션을 제공하여 실제 애플리케이션에서 CMDP를 해결하는 데 있어 중요한 진전을 이루었습니다.
이 연구는 일반 매개변수화된 정책을 사용하는 할인된 CMDP에 중점을 둡니다. 향후 연구에서는 비선형 CMDP, 평균 보상 CMDP 등과 같은 제약 강화 학습의 다른 관련 영역에서 샘플 복잡성을 개선하기 위해 가속 기반 NPG 아이디어를 적용할 수 있습니다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies