本論文では、確率近似法アルゴリズムの安定性を解析する。確率近似法は、例えば確率勾配降下法や時間差学習など、ベクトルを逐次的かつ確率的に更新するアルゴリズムの一種である。
確率近似法アルゴリズムの安定性を示すには、ストキャスティックな反復列が確実に有界であることを示す必要がある。本論文では、マルチンゲール差分雑音の設定から、マルコフ雑音の設定へと、Borkar-Meyn の定理を拡張した。これにより、特に線形関数近似と適格性追跡を用いた強化学習アルゴリズムの解析が大幅に改善される。
解析の中心となるのは、いくつかの関数の漸近的な変化率が減少することである。これは、強い大数の法則の一形式と、一般的に用いられるV4リアプノフドリフト条件の両方から導かれ、マルコフ連鎖が有限で不可約な場合には自明に成り立つ。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shuze Liu,Sh... lúc arxiv.org 04-30-2024
https://arxiv.org/pdf/2401.07844.pdfYêu cầu sâu hơn