本論文では、分布強化学習の統計的効率性の観点から研究を行っている。特に、与えられたポリシーπの収益分布ηπを推定する問題に焦点を当てている。確実性等価法を用いて推定量ˆηπを構築し、生成モデルが利用可能な場合、ε精度のηπの推定には eO
|S||A|
ε2(1−γ)2p+2
のサンプル数が必要であることを示した。また、異なる弱い仮定の下で、ε精度のKolmogorov距離とTotal Variation距離の推定には eO
|S||A|
ε2(1−γ)4
のサンプル数が十分であることを示した。さらに、ˆηπの漸近挙動を調べ、ˆηπが Lipschitz関数クラス、指示関数クラス、可測関数クラスの有界汎関数空間で弱収束することを示した。これらの結果は、ηπの広範な統計的推論を可能にする統一的アプローチを提供する。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問