核心概念
弱く通信するMDPにおけるε-最適ポリシーの学習のサンプル複雑性を研究しました。一般的な平均報酬MDPにおいても新たな転移時間パラメータBが必要であることを主張し、それに基づいた複雑性境界を確立しました。
統計
弱く通信するMDPsではH ≤ 1/(1−γ)まで最適化されたサンプル量が必要です。
一般的なMDPsではB+H ≤ 1/(1−γ)まで最適化されたサンプル量が必要です。
引用
"我々は、弱く通信する平均報酬MDPにおけるサンプル複難度をHとSAに依存した境界で確立した。"
"一般的なMDPでは、新たな転移時間パラメータBが必要であり、特定のε2のサンプルが十分であることを証明した。"