産業用深層強化学習を活用したポートフォリオ最適化の重要性と効果を探求する。
非微分可能な目的関数を最大化するための強化学習手法を紹介し、それらを単一ステップの問題から順次決定問題へと拡張する。
本論文では、連続状態および行動空間における強化学習問題に対して、優先順位付けされた経験再生とパラメータノイズを組み合わせた新しいアルゴリズム、Prioritized DDPGを提案し、従来のDDPGよりも優れた性能を達成できることを示した。