이 논문은 선형 MDP 환경에서 정책 최적화 알고리즘 OPPO를 제안한다. OPPO는 다음과 같은 특징을 가진다:
정책 개선 단계: OPPO는 KL-divergence 정규화를 통해 현재 정책과 유사한 정책을 업데이트한다. 이를 통해 정책 개선 시 현재 정책에 대한 정보를 활용할 수 있다.
정책 평가 단계: OPPO는 Q-함수 추정 시 불확실성을 고려한 보너스 함수를 도입한다. 이를 통해 탐험을 장려하고 adversarial한 보상 함수에 대해서도 강건한 성능을 보인다.
이론적 분석: OPPO는 선형 MDP 환경에서 √d2H3T 수준의 regret을 달성한다. 이는 기존 value-based 알고리즘과 비교하여 동일한 수준의 성능을 보이면서도 adversarial한 보상 함수에 대해 강건하다는 점에서 의의가 있다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Qi Cai,Zhuor... om arxiv.org 04-02-2024
https://arxiv.org/pdf/1912.05830.pdfDiepere vragen