核心概念
本文提出了一種名為「叢集邊緣探索」(CE2)的新型目標導向探索演算法,該演算法通過在潛在空間中對狀態進行叢集,並優先考慮可到達的、位於叢集邊緣的目標狀態來提高探索效率,從而解決了無監督目標導向強化學習中的探索挑戰。
Duan, Y., Cui, G., & Zhu, H. (2024). Exploring the Edges of Latent State Clusters for Goal-Conditioned Reinforcement Learning. Advances in Neural Information Processing Systems, 38.
本研究旨在解決無監督目標導向強化學習(GCRL)中,代理在訓練期間有效探索環境的挑戰。具體而言,研究提出了一種新的探索策略,稱為「叢集邊緣探索」(CE2),以引導代理在訓練期間設定探索目標,從而更有效地收集探索數據並改善學習過程。