Core Concepts
본 연구는 중요 시스템 제어를 위해 강화 학습과 모델 예측 제어를 결합한 새로운 방법론 RL-ACR을 제안한다. RL-ACR은 강화 학습 정책과 안전 제약을 고려한 제어 정규화기를 동적으로 결합하여 안전성과 적응성을 동시에 달성한다.
Abstract
본 논문은 중요 시스템 제어를 위한 안전한 강화 학습 방법론 RL-ACR을 제안한다. RL-ACR은 다음과 같은 특징을 가진다:
강화 학습 모듈과 모델 예측 제어(MPC) 모듈을 병렬로 구성하여 상호작용한다.
강화 학습 모듈은 모델 프리 방식으로 실제 환경에 적응한다.
MPC 모듈은 추정된 모델을 활용하여 안전 제약을 만족하는 제어 정책을 생성한다.
강화 학습 정책과 MPC 정책을 동적으로 결합하는 "focus" 모듈을 도입한다.
초기에는 MPC 정책에 더 큰 가중치를 두어 안전성을 보장한다.
강화 학습 정책이 개선됨에 따라 점진적으로 강화 학습 정책에 더 큰 가중치를 부여한다.
이를 통해 안전성과 적응성을 동시에 달성할 수 있다.
안전성: MPC 정책이 안전 제약을 만족하도록 보장한다.
적응성: 실제 환경에 대한 강화 학습을 통해 최적의 정책을 찾아낸다.
논문은 의료 응용 분야와 4가지 고전적 제어 문제에서 RL-ACR의 성능을 검증하였다. 실험 결과, RL-ACR이 기존 방법들에 비해 안전성과 성능 측면에서 우수한 것으로 나타났다.
Stats
혈당 조절 환경에서 SAC, CPO, MPC, RL-ACR 방법들의 첫 100회 에피소드 중 실패한 에피소드 수: 100, 100, 0, 0
아크로봇 환경에서 SAC, CPO, MPC, RL-ACR 방법들의 첫 100회 에피소드 중 실패한 에피소드 수: 69, 73, 0, 0
마운틴카 환경에서 SAC, CPO, MPC, RL-ACR 방법들의 첫 100회 에피소드 중 실패한 에피소드 수: 2, 2, 0, 0
펜듈럼 환경에서 SAC, CPO, MPC, RL-ACR 방법들의 첫 100회 에피소드 중 실패한 에피소드 수: 22, 26, 0, 0
카트폴 환경에서 SAC, CPO, MPC, RL-ACR 방법들의 첫 100회 에피소드 중 실패한 에피소드 수: 100, 100, 0, 0