이 논문은 강화 학습(RL)에서 모델 강건성을 높이기 위한 방법을 조사합니다. 저자들은 분포 강건 마르코프 의사 결정 프로세스(RMDP) 프레임워크를 사용하여 배치 환경이 명목 MDP 주변의 지정된 불확실성 집합 내에 있을 때 최악의 성능을 최적화하는 정책을 학습합니다.
저자들은 일반화 모델을 사용하여 TV 거리 또는 χ2 발산을 통해 지정된 불확실성 집합에서 RMDP의 표본 복잡성을 특성화합니다. 모델 기반 접근법인 분포 강건 가치 반복(DRVI) 알고리즘을 연구하며, 이 알고리즘은 전체 불확실성 수준 범위에서 근최적으로 입증됩니다.
저자들의 분석은 RMDP가 표준 MDP보다 항상 쉽거나 어렵지 않다는 것을 보여줍니다. 강건성 요구사항으로 인한 통계적 결과는 불확실성 집합의 크기와 모양에 크게 의존합니다. TV 거리의 경우 RMDP의 최소-최대 표본 복잡성이 표준 MDP보다 항상 작습니다. χ2 발산의 경우 RMDP의 표본 복잡성이 종종 표준 MDP 대응물을 크게 초과할 수 있습니다.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Laixi Shi,Ge... ที่ arxiv.org 04-15-2024
https://arxiv.org/pdf/2305.16589.pdfสอบถามเพิ่มเติม