Centrala begrepp
後見經驗回放 (HER) 可以通過重新採樣目標來加速近端策略優化 (PPO) 等策略學習算法,即使 HER 違反了策略學習算法的假設。
Crowder, D. C., McKenzie, D. M., Trappett, M. L., & Chance, F. S. (2024). Hindsight Experience Replay Accelerates Proximal Policy Optimization. arXiv preprint arXiv:2410.22524v1.
本研究旨在探討後見經驗回放 (HER) 是否能應用於策略學習算法,特別是近端策略優化 (PPO),並評估其在連續動作空間環境中的有效性。