Core Concepts
深層強化学習と模倣学習を組み合わせたハイブリッドエージェントアーキテクチャを提案し、電力グリッドの効率的かつ信頼性の高い運用を実現する。
Abstract
本論文では、深層強化学習(DRL)と模倣学習を組み合わせたハイブリッドエージェントアーキテクチャを提案している。このアーキテクチャは以下の特徴を持つ:
2つのポリシーを並行して使用する。1つは適応型のSACベースのポリシー、もう1つは既存の単純な電圧制御ルールベースのポリシー。
ディスクリミネーターがこれらのポリシーの提案を評価し、より良いポリシーを選択する。ディスクリミネーターはエージェントの内部ワールドモデルを活用する。
既存のルールベースのポリシーをフォールバックとして使用することで、エージェントの振る舞いを保証する。
SACベースのポリシーは、ディスクリミネーターから得られる3つのサンプル(ワールドモデルで評価された提案2つ、実際の報酬1つ)を使って効率的に学習する。
実験では、CIGRE中圧グリッドベンチマークを使用し、提案手法が既存のSACエージェントよりも優れた性能を示すことを確認した。提案手法は、グリッドコード違反を回避しつつ、より高い報酬を得られることが示された。
Stats
電圧レベルが0.90 pu以上1.10 pu以下の範囲に収まるよう設計された報酬関数を使用している。
提案手法では、SACエージェントよりも約3倍多くのサンプルを使って学習を行っている。
Quotes
"深層強化学習と模倣学習を組み合わせたハイブリッドエージェントアーキテクチャを提案し、電力グリッドの効率的かつ信頼性の高い運用を実現する。"
"提案手法は、グリッドコード違反を回避しつつ、より高い報酬を得られることが示された。"