Abstract
この論文は、Markov Decision Processes(MDPs)におけるスケールフリーな学習の初期研究を紹介しています。報酬/損失のスケールが学習者には未知である場合、新しいアルゴリズムフレームワークであるScale Clipping Bound(SCB)を設計しました。これにより、敵対的Multi-armed Bandit(MAB)設定と敵対的MDP設定の両方で最小マキシマム最適期待後悔限界と高確率後悔限界を達成しました。これにより、従来のアルゴリズムでは対応できなかった問題が解決されました。
この論文は、スケールフリーRLアルゴリズムの重要性を強調し、先行研究と比較しながら提案手法の優位性を示しています。
Stats
SCB (Theorem 1): Θ(ℓ∞√nT)
SCB-IX (Theorem 4): Θ(ℓ∞pnT log(n/δ))
SCB-RL (Theorem 5): ˜O(P h∈[H] ℓ∞,hS3/2√AT)
Quotes
"本論文は、Markov Decision Processes(MDPs)におけるスケールフリーな学習の初期研究を紹介しています。"
"SCBは、敵対的Multi-armed Bandit(MAB)設定と敵対的MDP設定で最小マキシマム最適期待後悔限界と高確率後悔限界を達成します。"