深層ニューラルネットワークを用いて、パラメータ化された連続行動空間においても強化学習を行うことができる。提案手法は、RoboCupサッカーの課題において、手動で設計された強力なエージェントよりも信頼性の高い得点を上げることができる。