核心概念
本文提出了一種新的策略梯度算法——套娃策略梯度(MPG),並證明了其在具有熵正則化的強化學習中的全局收斂性和最優性。
Ged, F. G., & Veiga, M. H. (2024). Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality. arXiv preprint arXiv:2303.12785v3.
本研究旨在探討套娃策略梯度(MPG)算法在固定時域最大熵強化學習中的收斂性和全局最優性。