核心概念
本論文では、パラメータ化された行動空間(離散-連続ハイブリッド行動空間)に対するモデルベースの強化学習アルゴリズムDLPAを提案する。DLPAは、パラメータ化された行動に依存した遷移モデルを学習し、修正されたModel Predictive Path Integral制御を用いて計画を行う。理論的な分析と実験的な評価により、DLPAが既存のパラメータ化された行動空間の強化学習手法に比べて、サンプル効率と漸近的な性能において優れていることを示す。
要約
本論文では、パラメータ化された行動空間(PAMDP)に対するモデルベースの強化学習アルゴリズムDLPAを提案している。
遷移モデルの学習:
3つの異なる推論構造を提案し、パラメータ化された行動空間の特性を考慮する。
H-step損失関数を用いて遷移モデルを更新する。
終了予測に依存した2つの報酬予測器を学習する。
計画アルゴリズム:
パラメータ化された行動に適応したMPPI(Model Predictive Path Integral)アルゴリズムを提案する。
各離散行動に対して独立の連続パラメータ分布を維持し、更新する。
理論的分析:
リプシッツ連続性の観点から、DLPAの生成軌道と最適軌道の価値差を定量化する。
実験的評価:
8つの標準的なPAMDP ベンチマークで、DLPAが既存手法に比べて高いサンプル効率と漸近的性能を示す。
大規模な行動空間でも良好な性能を示す。
統計
状態遷移関数Tは(LS
T, LK
T, LZ
T)-リプシッツ連続である。
報酬関数Rは(LS
R, LK
R, LZ
R)-リプシッツ連続である。
遷移モデルの予測誤差はϵTである。
報酬モデルの予測誤差はϵRである。