מושגי ליבה
PSRL-ZSGアルゴリズムは、ベイズ的後方サンプリングを使用して、無限時間のゼロサム確率ゲームで平均報酬基準を達成する初のオンライン学習アルゴリズムです。
תקציר
この論文では、PSRL-ZSGアルゴリズムが提案されています。このアルゴリズムは、無限時間のゼロサム確率ゲームにおいて平均報酬基準を達成する初のオンライン学習アルゴリズムです。従来の最良結果よりも高い確率での後悔境界を実現しました。PSRL-ZSGは、相手の戦略に対して制約を課さず、強力なergodicity仮定下で得られる高確率後悔境界eO(3√DS2AT2)を改善しました。
סטטיסטיקה
eO(HS√AT)
eO(3√DS2AT2)
eO(HS√AT)
eO(3√DS2AT2)
SA + 2√SAT
p224S log(2AT)
p56S log(2AT)(SA + 2√SAT)
ציטוטים
"Recent advances in playing the game of Go and Starcraft have proved the capability of self-play in achieving super-human performance."
"Self-play can be considered as a special case of offline competitive RL where the learning algorithm controls both the agent and the opponent during the learning process."
"We propose Posterior Sampling Reinforcement Learning algorithm for Zero-sum Stochastic Games (PSRL-ZSG), a learning algorithm that achieves eO(HS√AT) Bayesian regret bound."
"Our regret bound improves on the best existing regret bound of eO(3√DS2AT 2) by Wei et al. (2017)."