The paper proposes two algorithms, RCPG with Robust Lagrangian and Adversarial RCPG, to address limitations of the existing Robust Constrained Policy Gradient (RCPG) algorithm for optimizing policies in Robust Constrained Markov Decision Processes (RCMDPs).
강건한 제약 마르코프 의사결정 프로세스(RCMDP)를 위한 두 가지 알고리즘인 강건한 라그랑지안 RCPG와 적대적 RCPG를 제안한다. 이 알고리즘들은 기존 RCPG의 한계를 해결하여 전체 제약 목적함수에 대한 강건성과 점진적 학습을 제공한다.