Core Concepts
본 논문은 모델 예측 제어(MPC)에서 영감을 받아 새로운 매개변수화된 제어기를 제안한다. 이 제어기는 선형 MPC 문제의 2차 계획법 솔버와 유사한 구조를 가지지만, 시스템 모델에서 유도되는 대신 심층 강화학습을 통해 매개변수가 학습된다. 이를 통해 일반적인 신경망 기반 제어기에 비해 검증 가능성과 성능 보장을 얻을 수 있다.
Abstract
본 논문은 모델 예측 제어(MPC)에서 영감을 받아 새로운 매개변수화된 제어기를 제안한다. 이 제어기는 선형 MPC 문제의 2차 계획법 솔버와 유사한 구조를 가지지만, 시스템 모델에서 유도되는 대신 심층 강화학습을 통해 매개변수가 학습된다.
제안된 제어기는 다음과 같은 특징을 가진다:
상태 독립적인 행렬 P, H와 상태 선형 의존 벡터 q, b로 매개변수화되어 MPC와 유사한 구조를 가짐
고정된 수의 2차 계획법 솔버 반복을 통해 근사 솔루션을 얻고 이를 미분하여 학습
표준 강화학습 손실 외에도 2차 계획법 잔차 최소화 정규화 항을 포함
이를 통해 제안된 제어기는 MPC와 유사한 이론적 보장을 가지면서도 MPC와 신경망 기반 제어기에 비해 우수한 성능과 계산 효율성을 보인다. 또한 실제 차량 드리프트 제어 실험을 통해 비선형 시스템에서의 일반화 능력도 확인하였다.
Stats
제안된 제어기의 QP 문제 크기는 nqp = Nmsys, mqp = 2N(msys + nsys)이다.
제안된 제어기의 매개변수 수는 MLP 기반 제어기에 비해 크게 적다.
Quotes
"본 논문은 모델 예측 제어(MPC)에서 영감을 받아 새로운 매개변수화된 제어기를 제안한다."
"제안된 제어기는 MPC와 유사한 이론적 보장을 가지면서도 MPC와 신경망 기반 제어기에 비해 우수한 성능과 계산 효율성을 보인다."