Core Concepts
本論文では、モデル予測制御(MPC)に着想を得た新しい制御器クラスを提案する。提案する制御器は、MPCと同様の理論的保証を持ちつつ、優れた制御性能と計算効率を示す。
Abstract
本論文では、モデル予測制御(MPC)に着想を得た新しい制御器クラスを提案している。
提案する制御器は以下の特徴を持つ:
MPCと同様の二次計画問題(QP)の構造を持つが、QP問題のパラメータをモデルから導出するのではなく、深層強化学習によって最適化する。
QP問題のパラメータの学習に際し、QP問題の解の最適性を表す残差を最小化する正則化項を導入することで、QP問題が解きやすくなるよう学習を促す。
提案手法は、MPCと同様の理論的保証(持続的実行可能性、漸近安定性)を持つことが示される。
数値例や実ロボットシステムでの実験により、提案手法がMPCやニューラルネットワーク制御器と同等の制御性能を示しつつ、計算効率が高く、パラメータ数が少ないことが確認された。
Stats
本論文では以下のような重要な数値が示されている:
提案手法のQP問題のサイズ: nqp = 4, 16, mqp = 24, 96
提案手法の学習に要した時間: 小規模設定で1.2時間、大規模設定で2.7時間
提案手法の1ステップ当たりの計算量: 小規模設定で14K FLOPS、大規模設定で208K FLOPS
提案手法の学習パラメータ数: 小規模設定で300、大規模設定で2600