Core Concepts
本研究では、安定性を保証する既知の安定なポリシーを活用しつつ、ニューラルネットワークポリシーによる探索と方策改善を組み合わせた介入支援型エージェントフレームワークを提案する。これにより、無限の状態空間を持つ確率的キューイングネットワーク制御問題に対するオンラインディープ強化学習を実現する。
Abstract
本論文では、確率的キューイングネットワーク(SQN)の制御問題に対するオンラインディープ強化学習(ODRLC)アプローチを提案している。SQNでは、キューサイズが無限大となる状態空間の無界性が課題となる。ニューラルネットワークはこのような未知の状態への外挿が苦手であり、ODRLC設定下では深刻な問題を引き起こす。
本研究では、介入支援型エージェントフレームワークを提案する。このフレームワークでは、既知の安定なポリシーを活用して、ネットワークの安定性を保証しつつ、ニューラルネットワークポリシーによる探索と方策改善を行う。具体的には、状態空間を有界な「学習領域」と無界な「介入領域」に分割し、学習領域ではニューラルネットワークポリシーを使用し、介入領域では既知の安定なポリシーを使用する。
この介入支援型ポリシーが強い安定性を持つことを理論的に示し、介入支援型ポリシーグラジエントの導出と、信頼領域ベースの方策改善理論の拡張を行った。最後に、実験により提案手法が既存手法を上回ることを示している。
Stats
確率的キューイングネットワークでは、キューサイズの無界性が課題となる。
ニューラルネットワークは未知の状態への外挿が苦手であり、ODRLC設定下では深刻な問題を引き起こす。
Quotes
"本研究では、安定性を保証する既知の安定なポリシーを活用しつつ、ニューラルネットワークポリシーによる探索と方策改善を組み合わせた介入支援型エージェントフレームワークを提案する。"
"この介入支援型ポリシーが強い安定性を持つことを理論的に示し、介入支援型ポリシーグラジエントの導出と、信頼領域ベースの方策改善理論の拡張を行った。"