Core Concepts
最適制御問題を解決するために、ポントリャーギンの最大原理を活用して、データ依存の縮約ハミルトニアンを学習し、それを利用して最適な制御を導出する。
Abstract
本論文では、最適制御問題を解決するための新しい学習フレームワークを提案している。
まず、離散時間の線形二次制御(LQR)問題に対して、ポントリャーギンの最大原理(PMP)に基づいた損失関数を用いて、最適な制御を学習する手法を示している。
次に、連続時間の最適制御問題に対して、2段階の学習フレームワーク「NeuralPMP」を提案している。
第1段階では、PMPの条件を用いて、縮約ハミルトニアンを学習する。
第2段階では、前向き・後向きのハミルトン力学に基づく変分オートエンコーダを用いて、より効果的な経路探索を行う。
実験結果では、提案手法が従来の強化学習手法に比べて優れた性能を示している。特に、時間刻みが不均一な場合でも良好な結果が得られることが確認された。
Stats
最適制御問題の目的関数は、状態q(t)と制御u(t)の2次関数で表される。
状態方程式は線形微分方程式で表される。
最適制御問題は、ポントリャーギンの最大原理を用いて、縮約ハミルトニアンの学習問題に帰着される。
Quotes
"最適制御問題を解決するために、ポントリャーギンの最大原理を活用して、データ依存の縮約ハミルトニアンを学習し、それを利用して最適な制御を導出する。"
"第1段階では、PMPの条件を用いて、縮約ハミルトニアンを学習する。第2段階では、前向き・後向きのハミルトン力学に基づく変分オートエンコーダを用いて、より効果的な経路探索を行う。"
"実験結果では、提案手法が従来の強化学習手法に比べて優れた性能を示している。特に、時間刻みが不均一な場合でも良好な結果が得られることが確認された。"