核心概念
電力系統の最適化問題をリインフォースメント・ラーニングで解く際、環境設計の選択が学習パフォーマンスに大きな影響を及ぼす。適切な環境設計を行うことで、最適化性能と制約条件の満足度を向上させることができる。
要約
本研究では、リインフォースメント・ラーニングを用いて電力系統の最適化問題を解く際の環境設計について検討した。具体的には、以下の4つの設計カテゴリーに着目した:
学習データ: 時系列データ、一様分布、正規分布などの違いが学習パフォーマンスに及ぼす影響を分析した。時系列データが最も良好な結果を示した。
観測空間: マルコフ性を満たす最小限の観測変数と、電圧や送電線負荷などの冗長な観測変数を比較した。冗長な観測変数を加えても大きな改善は見られず、むしろ計算コストが増加する結果となった。
エピソード定義: 1ステップ環境と複数ステップ環境を比較した。1ステップ環境の方が単純な学習問題となり、全体的に良好な結果を示した。
報酬関数: 目的関数と制約違反のペナルティを加算する方式と、制約を満たした場合のみ目的関数に報酬を与える方式を比較した。問題特性に応じて適切な方式を選択する必要がある。
これらの結果から、リインフォースメント・ラーニングを用いて電力系統の最適化問題を解く際は、適切な環境設計を行うことが重要であることが示された。本研究で得られた知見は、今後の同分野の研究に役立つと考えられる。
統計
電力損失を最小化する最適化問題では、最適解に対する平均絶対パーセント誤差(MAPE)が2-7%程度となった。
制約違反の割合は0.5-3%程度であった。