이 논문은 선형 MDP 환경에서 효율적인 탐험을 통해 정책 최적화를 수행하는 OPPO 알고리즘을 제안한다. OPPO는 정책 개선 단계와 정책 평가 단계로 구성되며, 불확실성을 고려한 최적주의적 접근법을 통해 √d2H3T 수준의 regret을 달성한다.