核心概念
본 논문은 로봇 상태 제약 조건을 보장하는 폐루프 제어 정책을 학습하는 새로운 강화학습 프레임워크 POLICEd RL을 제안한다. POLICEd RL은 상태 공간 주변에 완충 영역을 만들어 제약 조건을 만족하도록 정책을 학습한다.
要約
이 논문은 로봇 제어 정책이 상태 제약 조건을 보장하도록 학습하는 새로운 강화학습 프레임워크 POLICEd RL을 제안한다.
핵심 내용은 다음과 같다:
- 상태 공간 주변에 완충 영역을 만들어 제약 조건을 만족하도록 정책을 학습한다.
- 완충 영역 내에서 정책의 출력이 선형이 되도록 제한하여 제약 조건 만족을 쉽게 검증할 수 있다.
- 이를 통해 폐루프 시스템이 제약 조건을 위반하지 않도록 보장한다.
- 제안 방법은 연속 및 이산 상태-동작 공간 시스템에 적용 가능하며, 강화학습 알고리즘에 독립적이다.
- 시뮬레이션 결과를 통해 제안 방법이 기존 방법들에 비해 우수한 성능을 보임을 확인하였다.
統計
상태 공간 S는 compact convex polytope이며, 동작 공간 A는 compact convex subset이다.
상태 제약 조건은 선형 부등식 Cs(t) ≤ d로 표현된다.
상태 공간 주변의 완충 영역 B는 Cs(t) ∈ [d - r, d]인 영역이다.
완충 영역 B 내에서 정책 μθ(s)는 선형 함수 Dθs + eθ로 표현된다.
근사 척도 ε은 선형 최소 제곱법을 통해 추정된다.
引用
"To encourage constraint satisfaction, existing RL algorithms typically rely on Constrained Markov Decision Processes and discourage constraint violations through reward shaping. However, such soft constraints cannot offer verifiable safety guarantees."
"Our key insight is to force the learned policy to be affine around the unsafe set and use this affine region as a repulsive buffer to prevent trajectories from violating the constraint."
"We prove that such policies exist and guarantee constraint satisfaction."