Core Concepts
本論文では、モデル予測制御(MPC)のコスト関数のパラメータを閉ループ学習する手法DiffTune-MPCを提案する。MPCは未来の挙動を予測しつつ制約条件を考慮できるが、コスト関数のパラメータチューニングは高次元の問題となり困難である。DiffTune-MPCは、閉ループ性能を最適化するためのコスト関数パラメータを自動的に学習する。
Abstract
本論文では、モデル予測制御(MPC)のコスト関数のパラメータを閉ループ学習する手法DiffTune-MPCを提案している。
まず、線形MPCの問題を定式化し、その微分可能性を示す。線形MPCの最適解に対する微分は、補助問題を解くことで得られる。さらに、非線形MPCの場合についても、逐次2次計画法(SQP)を用いて同様の微分を導出する。
シミュレーション実験では、1次積分器システム、差動駆動ロボット、クアッドロータなどの線形/非線形システムに対してDiffTune-MPCを適用し、従来手法であるポリシー探索ベースのMPC学習と比較している。DiffTune-MPCは勾配情報を活用できるため、より効率的な学習が可能であることを示している。
さらに、高精度なクアッドロータシミュレータを用いた実験では、DiffTune-MPCの一般化性能も確認している。学習したパラメータは、訓練に使用していない軌道に対しても良好な追従性能を示している。
Stats
1次積分器システムの状態方程式は、˙
x(t) = [ ˙
p(t) ˙
v(t) ]⊤= [ 0 1 0 -0.05 ] x(t) + [ 0 1 ]⊤u(t)である。
差動駆動ロボットの運動方程式は、˙
px = cos(φ)us, ˙
py = sin(φ)us, ˙
φ = uωである。
クアッドロータの運動方程式は、˙
p = v, ˙
v = m−1fTzB + g, ˙
q = 1
2q ⊗[0 ω⊤]⊤, ˙
ω = J−1(M −ω × Jω)である。