Zeng, S., Doan, T. T., & Romberg, J. (2024). Finite-Time Complexity of Online Primal-Dual Natural Actor-Critic Algorithm for Constrained Markov Decision Processes. arXiv preprint arXiv:2110.11383v3.
本研究旨在分析一種線上原始對偶自然演員評論家演算法在求解受限馬可夫決策過程(CMDP)問題時的有限時間複雜度。
本文研究了一種線上演員評論家變體的經典原始對偶方法,其中原始函數和對偶函數的梯度都是使用由底層時變馬可夫過程生成的單一軌跡中的樣本來估計的。
本研究為線上原始對偶演員評論家演算法在求解 CMDP 問題時的有限時間收斂性提供了理論依據,並為設計更有效率的線上強化學習演算法提供了參考。
翻譯成其他語言
從原文內容
arxiv.org
深入探究