Core Concepts
온라인 폐루프 데이터를 활용하여 LQR 제어 정책을 직접적으로 학습하고 갱신하는 방법을 제안한다. 이를 통해 모델 식별 없이도 LQR 제어기를 효율적으로 학습할 수 있다.
Abstract
이 논문은 선형 2차 조절기(LQR) 문제에 대한 직접 적응형 학습 방법을 제안한다. 기존의 간접 접근법은 시스템 식별 후 모델 기반 LQR 설계를 수행하지만, 이는 계산적으로 비효율적이며 온라인 적응에 어려움이 있다.
저자들은 새로운 공분산 기반 정책 매개변수화를 제안하여 직접 데이터 기반 LQR 문제를 정의한다. 이 문제는 간접 확실성 등가 LQR 문제와 동등하다는 것을 보인다.
이후 데이터 기반 정책 최적화(DeePO) 방법을 사용하여 오프라인 데이터로부터 LQR 문제를 해결한다. DeePO는 투영 경사 우세 성질을 활용하여 전역 수렴을 달성한다.
마지막으로 DeePO를 온라인 폐루프 데이터에 적용하여 LQR을 직접 적응형으로 학습한다. 신호 대 잡음비가 충분히 크다면, 평균 후회율이 시간에 대해 부선형으로 감소하고 잡음 통계와 무관한 편향 항으로 수렴함을 보인다. 이를 통해 DeePO가 온라인 데이터를 효율적으로 활용하여 LQR을 직접 적응형으로 학습할 수 있음을 입증한다.
Stats
입력 행렬 U0,t의 최소 특이값 σ(U0,t)은 γ2/(2ζ) 이상이다.
프로세스 잡음 wt의 크기는 δ 이하로 제한된다.
Quotes
"온라인 폐루프 데이터를 활용하여 LQR 제어 정책을 직접적으로 학습하고 갱신하는 방법을 제안한다."
"신호 대 잡음비가 충분히 크다면, 평균 후회율이 시간에 대해 부선형으로 감소하고 잡음 통계와 무관한 편향 항으로 수렴함을 보인다."