本稿では、新しい分布強化学習アルゴリズムであるDCFP(直接カテゴリカル固定点アルゴリズム)を提案し、生成モデル設定において、リターン分布の近似においてミニマックス最適であることを証明しました。
本稿では、正規化ワッサーシュタイン損失であるSinkhornダイバージェンスを用いた新たな分布強化学習アルゴリズムであるSinkhornDRLを提案し、従来のQuantile Regressionベースの手法に比べて、特に多次元報酬設定において優れた性能を発揮することを示す。
PACERは、アクターとクリティックの両方でプッシュフォワード演算子を利用した初の完全プッシュフォワードベースの分布強化学習アルゴリズムであり、従来の分布型アクタークリティックアルゴリズムよりも広範なポリシー空間を探索できる。
分布強化学習の統計的効率性を研究し、与えられたポリシーπの完全な収益分布ηπを推定する問題を解決する。