弱く通信するMDPにおけるε-最適ポリシーの学習のサンプル複雑性を研究しました。一般的な平均報酬MDPにおいても新たな転移時間パラメータBが必要であることを主張し、それに基づいた複雑性境界を確立しました。
最適ポリシーを学習するためのサンプル複雑性を解決する。