本論文は、線形MDPにおいて、探索を伴う方策最適化アルゴリズムOPPOを提案し、その理論的な性能保証を示した。OPPOは、方策勾配法の最適化問題に不確実性に基づくボーナス関数を導入することで、効率的な探索を実現する。その結果、OPPOは、報酬関数が敵対的に選択される設定においても、√d2H3T の後悔regretを達成する。