toplogo
Sign In

불확실한 선형 시스템을 위한 LQR 메타 정책 추정을 위한 모로 엔벨로프 접근법


Core Concepts
모로 엔벨로프 기반 정규화 비용 함수를 최적화하여 새로운 시스템 실현에 신속하게 적응할 수 있는 메타 정책을 생성한다.
Abstract
이 논문은 불확실한 선형 시간 불변 동적 시스템에 대한 선형 2차 조절기(LQR) 정책 추정 문제를 다룹니다. 모로 엔벨로프 기반 대리 LQR 비용을 정의하여 새로운 실현에 효율적으로 조정할 수 있는 메타 정책을 정의합니다. 또한 메타 LQR 비용 함수의 근사 1차 정상 점을 찾는 알고리즘을 설계합니다. 수치 결과는 제안된 접근법이 새로운 선형 시스템 실현에 대한 적응 비용을 최소화하는 것을 보여줍니다. 또한 제안된 방법이 모델 무관 메타 학습(MAML) 접근법보다 더 나은 샘플 복잡성을 가지고 있음을 경험적으로 보여줍니다.
Stats
불확실한 선형 시간 불변 동적 시스템의 상태 방정식은 xt+1 = Axt + But 형태입니다. A = A0 + Σpi=1 aiAi, B = B0 + Σqj=1 bjBj로 표현되며, a = (a1 a2 ... ap) ∈ Rp, b = (b1 b2 ... bq) ∈ Rq는 경계된 불확실 매개변수입니다. V개의 시스템 실현이 주어지며, xt+1i = Aixt i + Biut i 형태입니다. 각 실현에 대한 LQR 문제는 Ex0i ∼ Di[Σ∞t=0 xti⊤Qxt i + uti⊤Rut i]를 최소화하는 것입니다.
Quotes
"복잡성과 불확실성은 현대 엔지니어링 시스템과 그 응용 분야를 제어하는 데 고유한 특성입니다." "메타 학습은 새로운 과제에 신속하게 적응할 수 있도록 이전에 습득한 지식을 적용하는 것을 가능하게 합니다."

Deeper Inquiries

불확실한 선형 시스템에 대한 LQR 메타 정책 추정 문제에서 어떤 다른 접근법을 고려할 수 있을까요?

불확실한 선형 시스템에 대한 LQR 메타 정책 추정 문제를 해결하는 데에는 다양한 접근법이 있을 수 있습니다. 예를 들어, 다양한 최적화 기술을 활용하여 메타 정책을 추정하는 방법이 있을 수 있습니다. 또한, 신경망을 활용한 메타 학습 기술을 적용하여 불확실성을 고려한 정책을 학습하는 방법도 고려할 수 있습니다. 또한, 강화 학습의 다양한 변형을 적용하여 불확실한 선형 시스템에 대한 메타 정책을 추정하는 방법을 탐구할 수도 있습니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star