Kivonat
この記事は、一般的な情報構造と非マルコフ環境下での確率制御におけるQ学習の収束定理とその応用に焦点を当てています。主な貢献は、収束条件や初期化条件に関する明確な特性を提供し、多様な制御問題への適用を議論しています。具体的なアプリケーションや新たな問題も取り上げられており、Q学習が広範囲のモデルに適用可能であることが示されています。
Statisztikák
一般的で非マルコフな環境下での収束条件が必要。
収束定理に基づく新たなアプリケーションが提示される。
マルコフ決定過程(MDP)や部分観測マルコフ決定過程(POMDP)への量子化近似が議論される。
強連続性条件や技術的エルゴード条件が重要。
フィルタ安定性や初期化に関する数学的質問が解決される。
Idézetek
"Under Assumption 3.1 and Assumption 2.2(i), the iterations in (2) converges a.s."
"Assumption 3.4 ensures asymptotically uniquely ergodic behavior for the controlled belief state and control action joint process."