Core Concepts
分布時間差アルゴリズムの統計的効率性を非漸近的視点から分析する。
Abstract
分布強化学習(DRL)は、収益の完全な分布をモデル化している。
DRLにおける主要な方法論は、分布方策評価を解決するための基本的手法である。
非パラメトリックな分布時間差(NTD)アルゴリズムが提案され、理論的解析を容易にする。
CTDについても再訪し、p-Wasserstein距離に関する同じ非漸近収束境界が成立することを示す。
結果として、NTDとCTDの統計的効率性が明らかになった。
Stats
NTDではε-optimal推定子を高確率で達成するためにeO[1/ε^2p(1−γ)^2p+2]イテレーションが必要。
NTDではKS距離がε未満であることを高確率で保証するためにeO[1/ε^2(1−γ)^4]イテレーションが十分。
CTDではp-Wasserstein距離に関して同じ非漸近収束境界が成立する。