Core Concepts
提案された新しい二時間尺度確率近似法は、最適なレートO(1/k)で収束することを示す。
Abstract
この論文では、新しい二時間尺度確率近似法が提案されています。主な焦点は、ノイズのサンプルから演算子を推定してから主要な反復を更新するために平均化技術を適用することです。これにより、反復の更新におけるサンプリングノイズの影響を軽減し、望ましい解に対する収束性を向上させることができます。
Introduction
新しい二時間尺度確率近似法が提案されました。
平均化技術を使用して演算子を推定してから主要な反復を更新します。
Main Results
有限時間収束率O(1/k)が達成されます。
平均化技術の適用により、収束性が向上します。
Simulations
線形関数近似下でのTD学習のパフォーマンス比較。
LQR問題のオンラインアクター・クリティック手法の実装と結果比較。
Stats
kは反復回数である。
O(1/k)の有限時間収束率が示されています。
Quotes
"Our result significantly improves the existing convergence rate of two-time-scale SA, which is O(1/k2/3)." - Source