Conceitos Básicos
TD学習における線形関数近似の有限時間収束を示す新しい帰納的アプローチが可能であることを示す。
Resumo
このコンテンツは、Markovianサンプリング下でのTD学習における線形関数近似の有限時間収束を調査しています。既存の証明では、射影ステップが必要であったり、比較的複雑な議論が必要だったりします。本稿では、新しい二段階のアプローチを用いて、射影ステップなしでシンプルな分析を実現する方法を提案しています。具体的には、定数ステップサイズαを使用した場合、TD学習によって生成される反復は期待値で一様に有界であることを帰納法を用いて証明しています。また、Markovianサンプリングの影響を捉えたO(α2)オーダーの境界乱れも考慮しています。
Estatísticas
α ≤ 1/(8τ)
B = 10 max{∥θ0 − θ∗∥2, σ2}
∥gt(θ)∥ ≤ 2∥θ∥ + 2σ
Citações
"Though temporal-difference learning is simple and elegant, a rigorous analysis of its behavior requires significant sophistication."
"Is it possible to retain the simplicity of a projection-based analysis without actually performing a projection step in the algorithm?"
"We conjecture that our inductive proof technique will find applications in the analyses of more complex stochastic approximation algorithms."