Conceitos essenciais
有望なモデルベースアルゴリズムがオンライン強化学習のサンプル複雑性を解決する。
Resumo
この記事は、オンライン強化学習におけるサンプル効率性の中心的課題であるデータ効率に焦点を当てています。新しいアルゴリズムは、最適な後悔を達成し、バーンインコストを排除します。エポックごとの手順と倍増トリックが導入され、楽観的更新と単調ボーナス関数が重要な役割を果たします。これにより、理論的障壁が克服されます。
Estatísticas
SA=√SAH3K, HK
Sは状態数、Aは行動数、Hは時間枠長さ、Kはエピソード数です。
SAH3ε2 up to log factor, SAH3ε2+ S2AH4ε, SAH3ε2+ S2AH4ε, SAH3ε2+ S8/3A2H11ε4/3, SAH3ε2+ S6A4H27, SAH5, SAH9, SAH5, S3AH
Citações
"Optimality of our regret bound can be readily seen given that it matches the minimax lower bound."
"Our algorithm is able to return an ε-suboptimal policy with high probability using at most the specified number of episodes."
"The key technical innovation lies in a novel analysis paradigm based on a new concept called 'profiles'."