Core Concepts
강건한 제약 마르코프 의사결정 프로세스(RCMDP)를 위한 두 가지 알고리즘인 강건한 라그랑지안 RCPG와 적대적 RCPG를 제안한다. 이 알고리즘들은 기존 RCPG의 한계를 해결하여 전체 제약 목적함수에 대한 강건성과 점진적 학습을 제공한다.
Abstract
이 논문은 강화 학습에서 행동 제약과 모델 불확실성을 고려하는 강건한 제약 마르코프 의사결정 프로세스(RCMDP) 문제를 다룬다. 기존의 RCPG 알고리즘의 한계를 해결하기 위해 두 가지 새로운 알고리즘을 제안한다:
강건한 라그랑지안 RCPG: RCPG의 목적함수를 라그랑지안으로 강건화하여 보상과 제약 비용을 통합한다.
적대적 RCPG: 적대적 정책 네트워크를 학습하여 점진적으로 더 어려운 전이 확률 모델을 생성하고, 라그랑지안을 최소화한다. 이를 통해 RCPG의 한계인 갑작스러운 전이 확률 변화와 대표성 부족 문제를 해결한다.
이론적 분석을 통해 두 알고리즘의 정책 경사를 유도하고, 실험에서 재고 관리 및 안전 항해 과제에서 기존 RCPG 변형 및 비강건/비제약 대안들과 비교하여 경쟁력 있는 성능을 보여준다. 특히 적대적 RCPG가 모든 테스트에서 상위 2개 알고리즘 중 하나로 나타났다.
Stats
재고 관리 과제에서 적대적 RCPG의 보정 수익은 -2112.2 ± 1084.6이다.
안전 항해 1A 과제에서 적대적 RCPG의 값은 -76.7 ± 20.2이다.
안전 항해 1B 과제에서 적대적 RCPG의 값은 -71.9 ± 18.9이다.
안전 항해 2A 과제에서 적대적 RCPG의 값은 -48.1 ± 9.7이다.
안전 항해 2B 과제에서 적대적 RCPG의 값은 -1437.2 ± 107.4이다.
Quotes
"적대적 RCPG는 모든 테스트에서 상위 2개 알고리즘 중 하나로 나타났다."
"적대적 RCPG는 RCPG의 한계인 갑작스러운 전이 확률 변화와 대표성 부족 문제를 해결한다."