이 논문은 불확실한 선형 시간 불변 동적 시스템에 대한 선형 2차 조절기(LQR) 정책 추정 문제를 다룹니다. 모로 엔벨로프 기반 대리 LQR 비용을 정의하여 새로운 실현에 효율적으로 조정할 수 있는 메타 정책을 정의합니다. 또한 메타 LQR 비용 함수의 근사 1차 정상 점을 찾는 알고리즘을 설계합니다.
수치 결과는 제안된 접근법이 새로운 선형 시스템 실현에 대한 적응 비용을 최소화하는 것을 보여줍니다. 또한 제안된 방법이 모델 무관 메타 학습(MAML) 접근법보다 더 나은 샘플 복잡성을 가지고 있음을 경험적으로 보여줍니다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Ashw... om arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17364.pdfDiepere vragen