Core Concepts
提案されたアルゴリズムは、eO(LX√TA)の後悔を達成し、最大でXA log T回の線形プログラム解法を必要とします。
Abstract
強化学習は未知の環境での意思決定問題に中心的な課題。
マルコフ決定過程(MDP)は不確実性に直面した連続的な意思決定をモデリングする有力なパラダイム。
エピソード型MDPでは、エピソードごとに学習が進行し、最適ポリシーを見つけることが目指される。
提案されたアルゴリズムは楽観主義原則に基づいており、信頼セットを保持し、LP1を解くことでオッカパンシーメジャーを更新する。
Stats
アルゴリズムはeO(LX√TA)の後悔を達成する。
XA log T回のモデル更新と最適化が必要。