モデルベース強化学習では、モデルの予測精度を高めることが必ずしも最適な行動の選択につながらないという問題がある。この目的関数のミスマッチを解決するための様々なアプローチが提案されている。
本論文では、パラメータ化された行動空間(離散-連続ハイブリッド行動空間)に対するモデルベースの強化学習アルゴリズムDLPAを提案する。DLPAは、パラメータ化された行動に依存した遷移モデルを学習し、修正されたModel Predictive Path Integral制御を用いて計画を行う。理論的な分析と実験的な評価により、DLPAが既存のパラメータ化された行動空間の強化学習手法に比べて、サンプル効率と漸近的な性能において優れていることを示す。