المفاهيم الأساسية
PACERは、アクターとクリティックの両方でプッシュフォワード演算子を利用した初の完全プッシュフォワードベースの分布強化学習アルゴリズムであり、従来の分布型アクタークリティックアルゴリズムよりも広範なポリシー空間を探索できる。
الملخص
PACER:プッシュフォワードベースの分布強化学習アルゴリズム
Bai, W., Zhang, C., Fu, Y., Zhao, P., Qian, H., & Dai, B. (2024). PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm. arXiv preprint arXiv:2306.06637v2.
本論文では、アクターとクリティックの両方でプッシュフォワード演算子を用いることで、より広範なポリシー空間を探索できる、完全プッシュフォワードベースの新しい分布強化学習アルゴリズムであるPACERを提案する。