본 논문에서는 제약 조건 하에서도 근사 최적의 결정론적 정책을 다항 시간 내에 효율적으로 계산하는 새로운 알고리즘을 제시하며, 이는 anytime-constrained, almost-sure-constrained, deterministic expectation-constrained 정책에 대한 다항 시간 근사 가능성을 증명합니다.
일반 매개변수화를 사용한 제약 마르코프 결정 프로세스(CMDP)에서 샘플 효율성을 개선하는 새로운 알고리즘인 Primal-Dual Accelerated Natural Policy Gradient (PD-ANPG)를 소개합니다.
C-MCTS는 안전 제약 조건이 있는 작업에서 효율적이고 안전한 계획을 위해 안전 비평가를 활용한 새로운 몬테카를로 트리 탐색(MCTS) 알고리즘입니다.
본 논문에서는 제약 강화 학습에서 보상과 제약 만족 사이의 균형을 맞추는 새로운 방법인 적대적 제약 정책 최적화(ACPO)를 제안합니다. ACPO는 훈련 과정에서 보상을 최대화하고 비용 예산을 동시에 조정하는 두 개의 적대적 단계를 번갈아 해결하여 기존 방법보다 우수한 성능을 달성합니다.
이 논문에서는 유한 수평선 제약 마르코프 결정 프로세스(finite-horizon constrained Markov Decision Processes, C-MDP)를 위한 새로운 정책 경사 강화 학습 알고리즘을 제시하고, 이 알고리즘이 제약된 최적 정책으로 수렴함을 증명하며, 실험을 통해 다른 알고리즘과 비교하여 성능을 분석합니다.
제안된 단일 루프 딥 액터-크리틱 (SLDAC) 알고리즘은 비볼록 확률적 제약 조건과 환경과의 상호 작용 비용이 높은 일반적인 제약 강화 학습 문제를 해결할 수 있으며, 초기 실행 가능한 점에서 KKT 점으로 수렴할 수 있음을 이론적으로 보장한다.