本論文では、在庫管理問題に対して、過去の視点を活用した差分可能な方策最適化手法(HDPO)を提案している。在庫管理問題は、状態空間、行動空間、結果空間の爆発的な増大により、最適な方策を見出すことが困難な問題である。
HDPOは以下の2つの特徴を活用することで、効率的な方策最適化を実現する:
具体的には、まず過去の需要履歴と初期状態から成る複数のシナリオを用意する。次に、方策パラメータに関する勾配を、各シナリオにおける勾配の平均として推定する。これにより、方策パラメータの更新を効率的に行うことができる。
本論文では、HDPOを4つの在庫管理問題に適用し、最適解または最適解に極めて近い解を得られることを示した。さらに、従来の強化学習手法と比較しても、HDPOが優れた性能を発揮することを確認した。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies