Core Concepts
報酬の上限を設けない状況下でも最適な後悔界を持つ新しい強化学習アルゴリズムEXP4.Pを提案し、その性能を理論的・実験的に示した。
Abstract
本論文では、報酬の上限を設けない状況下でも最適な後悔界を持つ新しい強化学習アルゴリズムEXP4.Pを提案した。
主な内容は以下の通り:
EXP4アルゴリズムを拡張してEXP4.Pを提案した。EXP4.Pは、報酬の上限を設けない状況下でも最適な後悔界を持つことを理論的に示した。
EXP3.Pアルゴリズムについても、報酬の上限を設けない状況下での最適な後悔界を理論的に示した。これは新しい結果である。
報酬の上限を設けない状況下での後悔の下界も導出し、一定の時間horizon以下では後悔が線形オーダーになることを示した。
EXP4.Pアルゴリズムを強化学習に拡張し、探索を促進するアルゴリズムを提案した。実験では、探索が困難なゲームでの性能向上を示した。
Stats
報酬の上限を設けない状況下でも、EXP4.Pの後悔は高確率でO*(√T)のオーダーである。
EXP3.Pの報酬の上限を設けない状況下での後悔も、期待値と高確率の両方でO*(√T)のオーダーである。
一定の時間horizon以下では、後悔が線形オーダーになる。
Quotes
"報酬の上限を設けない状況下でも最適な後悔界を持つ新しい強化学習アルゴリズムEXP4.Pを提案した。"
"EXP4.Pは、報酬の上限を設けない状況下でも最適な後悔界を持つことを理論的に示した。"
"EXP3.Pアルゴリズムについても、報酬の上限を設けない状況下での最適な後悔界を理論的に示した。"