핵심 개념
모로 엔벨로프 기반 정규화 비용 함수를 최적화하여 새로운 시스템 실현에 신속하게 적응할 수 있는 메타 정책을 생성한다.
초록
이 논문은 불확실한 선형 시간 불변 동적 시스템에 대한 선형 2차 조절기(LQR) 정책 추정 문제를 다룹니다. 모로 엔벨로프 기반 대리 LQR 비용을 정의하여 새로운 실현에 효율적으로 조정할 수 있는 메타 정책을 정의합니다. 또한 메타 LQR 비용 함수의 근사 1차 정상 점을 찾는 알고리즘을 설계합니다.
수치 결과는 제안된 접근법이 새로운 선형 시스템 실현에 대한 적응 비용을 최소화하는 것을 보여줍니다. 또한 제안된 방법이 모델 무관 메타 학습(MAML) 접근법보다 더 나은 샘플 복잡성을 가지고 있음을 경험적으로 보여줍니다.
통계
불확실한 선형 시간 불변 동적 시스템의 상태 방정식은 xt+1 = Axt + But 형태입니다.
A = A0 + Σpi=1 aiAi, B = B0 + Σqj=1 bjBj로 표현되며, a = (a1 a2 ... ap) ∈ Rp, b = (b1 b2 ... bq) ∈ Rq는 경계된 불확실 매개변수입니다.
V개의 시스템 실현이 주어지며, xt+1i = Aixt i + Biut i 형태입니다.
각 실현에 대한 LQR 문제는 Ex0i ∼ Di[Σ∞t=0 xti⊤Qxt i + uti⊤Rut i]를 최소화하는 것입니다.
인용구
"복잡성과 불확실성은 현대 엔지니어링 시스템과 그 응용 분야를 제어하는 데 고유한 특성입니다."
"메타 학습은 새로운 과제에 신속하게 적응할 수 있도록 이전에 습득한 지식을 적용하는 것을 가능하게 합니다."