Khái niệm cốt lõi
本稿では、新しい分布強化学習アルゴリズムであるDCFP(直接カテゴリカル固定点アルゴリズム)を提案し、生成モデル設定において、リターン分布の近似においてミニマックス最適であることを証明しました。
Tóm tắt
生成モデルを用いた、近似的にミニマックス最適な分布強化学習:論文要約
本論文は、強化学習における重要な課題である、状態におけるリターンの確率分布を推定する問題において、サンプル効率の高い分布強化学習アルゴリズムを提案し、その有効性を理論と実験の両面から検証することを目的としています。
本研究では、新しい分布強化学習アルゴリズムであるDCFP(直接カテゴリカル固定点アルゴリズム)を提案しています。DCFPは、カテゴリカル動的計画法(CDP)の固定点を直接計算するアルゴリズムであり、リターン分布を有限個の結果を持つカテゴリカル分布として近似します。
本研究では、DCFPのサンプル複雑さを解析し、生成モデル設定において、Wasserstein距離で測定したリターン分布推定のミニマックス下限を対数因子まで達成することを理論的に証明しました。
さらに、DCFPと既存の分布強化学習アルゴリズムである分位動的計画法(QDP)を、様々な環境と設定で比較する実験を行い、DCFPの有効性を検証しました。