이 논문은 선형 MDP 환경에서 정책 최적화 알고리즘 OPPO를 제안한다. OPPO는 다음과 같은 특징을 가진다:
정책 개선 단계: OPPO는 KL-divergence 정규화를 통해 현재 정책과 유사한 정책을 업데이트한다. 이를 통해 정책 개선 시 현재 정책에 대한 정보를 활용할 수 있다.
정책 평가 단계: OPPO는 Q-함수 추정 시 불확실성을 고려한 보너스 함수를 도입한다. 이를 통해 탐험을 장려하고 adversarial한 보상 함수에 대해서도 강건한 성능을 보인다.
이론적 분석: OPPO는 선형 MDP 환경에서 √d2H3T 수준의 regret을 달성한다. 이는 기존 value-based 알고리즘과 비교하여 동일한 수준의 성능을 보이면서도 adversarial한 보상 함수에 대해 강건하다는 점에서 의의가 있다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania