이 논문은 시스템 모델이 사전에 알려지지 않은 상황에서 분산형 선형 2차 제어기(LQR)를 온라인으로 학습하는 알고리즘을 제안한다.
시스템 식별 단계에서는 최소 자승법을 사용하여 시스템 행렬 A와 B의 추정치 ˆA와 ˆB를 구한다.
제어 정책 설계 단계에서는 부분적으로 중첩된 정보 패턴을 만족하는 교란 피드백 제어기(DFC) 구조를 사용한다. 온라인 볼록 최적화(OCO) 알고리즘을 적용하여 DFC 파라미터 M을 적응적으로 조정한다.
이 알고리즘은 시간 지평 T에 대해 $\sqrt{T}$ 회귀 오차를 달성한다. 이는 중앙집중형 LQR 문제에 대한 최적 회귀 오차와 동일한 수준이다.
일반적인 정보 패턴에 대해서도 결과를 확장하였다. 이 경우 최적 제어기를 알 수 없기 때문에 제안된 알고리즘의 성능을 특정 비최적 제어기와 비교하였다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Lintao Ye,Mi... às arxiv.org 04-16-2024
https://arxiv.org/pdf/2210.08886.pdfPerguntas Mais Profundas