본 논문에서는 비선형 신경망 동적 시스템에서 검증 가능한 안전 제어 정책을 학습하는 새로운 접근 방식을 제안하며, 이는 유한-수평 도달 가능성 증명의 의미에서 안전성을 달성하고, 전체 성능을 극대화하는 것을 목표로 합니다.
본 논문에서는 강화 학습 (RL) 에이전트의 안전성을 학습 과정 전반에 걸쳐 보장하는 새로운 방법인 제약된 신뢰 영역 정책 최적화 (C-TRPO)를 제안합니다. 이는 안전 제약 조건을 기반으로 정책 공간의 기하학적 구조를 수정하여 안전한 정책으로만 구성된 신뢰 영역을 생성함으로써 달성됩니다.
본 논문에서는 더욱 엄격한 비용 비관론과 보상 낙관론을 기반으로 한 새로운 모델 기반 알고리즘인 DOPE+를 통해 안전 강화 학습 문제에 대한 개선된 후회 경계를 제시합니다.
데이터 효율성과 안전성을 모두 중요시하는 오프라인 강화 학습에서, 충분한 데이터가 확보된 '결정 지점'에 정책 개선을 집중하고 그 외의 지점에서는 기존 정책을 유지하는 방식이 효과적인 방법이다.
이 논문에서는 안전 제약 조건을 충족하고 Q-값의 과대 평가 문제를 완화하는 안전 모듈레이터 Actor-Critic (SMAC) 방법을 제안하여 모델 프리 안전 강화 학습에서 안전하고 효율적인 학습을 가능하게 합니다.
본 논문에서는 명목상의 동적 모델만을 사용하여 내부 및 외부 외란이 있는 상황에서도 안전한 제어 정책을 최적화할 수 있는, 모델 프리에 가까운 안전 강화 학습 프레임워크를 제안합니다.
본 논문에서는 안전이 중요한 실제 의사 결정 문제에 적용 가능한 새로운 강화 학습 정책인 플리핑 기반 정책을 제안하며, 이는 불확실성 하에서 안전을 보장하기 위해 확률적 제약 조건을 사용하는 CCMDP (Chance-Constrained Markov Decision Processes)에서 최적의 성능을 달성할 수 있음을 보여줍니다.