Grunnleggende konsepter
이 논문은 외부적으로 대칭인 연속시간 선형-2차 최적 제어 문제를 다룹니다. 제안된 알고리즘은 시스템 모델을 모르는 상황에서도 최적 해를 찾을 수 있으며, 노이즈 측정에 대해 편향되지 않고 수렴합니다.
Sammendrag
이 논문은 연속시간 선형-2차 최적 제어 문제를 다룹니다. 시스템 모델이 알려지지 않은 경우, 최적 제어 문제를 해결하는 것은 어려운 과제입니다.
저자들은 시스템이 외부적으로 대칭이라는 가정 하에, 모델 정보 없이도 최적 해를 찾을 수 있는 반복 학습 알고리즘을 제안합니다. 이 알고리즘은 유한 및 무한 시간 문제 모두에 적용될 수 있습니다.
제안된 알고리즘의 주요 특징은 다음과 같습니다:
수렴 조건: 유한 시간 문제의 경우 초기 제어기와 무관하게 선형 수렴률로 최적 해에 수렴합니다. 무한 시간 문제의 경우 시스템 이득이 작다면 수렴이 보장됩니다.
노이즈 측정: 노이즈 측정 하에서도 편향되지 않고 분산이 유계인 업데이트를 제공합니다.
계산 복잡도: 대부분의 기존 알고리즘에 비해 상대적으로 낮은 계산 복잡도를 가집니다.
데이터 저장: 무한 시간 문제의 경우 n개의 등간격 데이터 포인트와 적절한 초기 조건으로 충분한 정보를 얻을 수 있습니다.
Statistikk
최적 제어 문제 (13)의 해는 다음 식을 만족합니다:
u⋆(t) = -K∞x(t)
여기서 K∞는 다음 식으로 주어집니다:
X'(t1:tn) ⊗ Im * vec(K∞) = -vec(U(t1:tn)) + ε(k, tf, t1:tn)
ε(k, tf, t1:tn)의 크기는 exp(-l1k) + exp(-l2tf)의 오더로 감소합니다.