核心概念
선형 제약이 있는 온라인 LQG 문제에 대해 Riemannian 계량을 활용한 최적화 알고리즘을 제안하고, 비교 정책 대비 누적 비용의 하위 최적성을 나타내는 후회 한계를 제시한다.
摘要
이 논문은 선형 제약이 있는 온라인 LQG 문제를 다룬다. 기존 연구에서는 제어기가 상태 또는 과거 노이즈의 선형 함수로 매개변수화되어 실제 물리적 연결에 의한 희소성 요구 사항을 만족하지 못했다. 이 논문에서는 주어진 선형 제약을 만족하는 선형 제어기 시퀀스를 학습하는 문제를 다룬다.
제안된 알고리즘인 OONM은 다음과 같은 특징을 가진다:
- 최적화 문제를 Riemannian 계량에 기반한 부분 다양체 상의 온라인 최적화 문제로 정식화한다.
- 미래 비용 함수에 대한 예측을 활용하여 최적화 방향을 계산한다.
- 비교 정책에 대한 동적 후회 한계를 제시한다. 이 한계는 비교 정책 시퀀스의 경로 길이와 예측 오차에 의해 결정된다.
시뮬레이션 결과를 통해 제안된 OONM 알고리즘이 기존 방법들에 비해 우수한 성능을 보임을 확인하였다.
統計資料
상태 크기 n = 6, 입력 크기 m = 3인 선형 시불변 시스템을 고려하였다.
제어기의 절반 요소가 0으로 강제되는 희소성 제약을 부과하였다.
100개의 (Qt, Rt) 쌍으로 구성된 비용 함수 시퀀스를 사용하였다.