Khái niệm cốt lõi
PACERは、アクターとクリティックの両方でプッシュフォワード演算子を利用した初の完全プッシュフォワードベースの分布強化学習アルゴリズムであり、従来の分布型アクタークリティックアルゴリズムよりも広範なポリシー空間を探索できる。
Tóm tắt
PACER:プッシュフォワードベースの分布強化学習アルゴリズム
Bai, W., Zhang, C., Fu, Y., Zhao, P., Qian, H., & Dai, B. (2024). PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm. arXiv preprint arXiv:2306.06637v2.
本論文では、アクターとクリティックの両方でプッシュフォワード演算子を用いることで、より広範なポリシー空間を探索できる、完全プッシュフォワードベースの新しい分布強化学習アルゴリズムであるPACERを提案する。