Core Concepts
Moreau包絡に基づく代理LQRコストを定義し、新しい実現に効率的に適応可能なメタポリシーを効率的に見つける。また、メタLQRコスト関数の近似第一次停留点を見つけるアルゴリズムを設計する。
Abstract
本論文では、不確定な離散時間線形時不変動的システムのポリシー推定問題を研究している。Moreau包絡に基づく代理LQRコストを定義し、新しい実現に効率的に適応可能なメタポリシーを効率的に見つめる手法を提案している。また、メタLQRコスト関数の近似第一次停留点を見つけるアルゴリズムを設計している。
アルゴリズムの収束性を分析し、提案手法が新しい実現に対する適応コストを最小化することを示している。さらに、モデルベースおよびモデルフリーのポリシー勾配手法の両方に適用可能であることを示している。
数値実験では、提案手法がナイーブな平均コントローラーよりも優れた性能を示し、MAML手法よりも良いサンプル複雑度を持つことを実証している。
Stats
不確定なシステムパラメータaとbは[-1, 1]の範囲にある。
状態初期値x0は(-10, 10)の一様分布に従う。
状態コスト行列Qは対角行列diag(1, 2, 3, 4)、入力コスト行列Rは対角行列diag(1, 2)である。
Quotes
"Moreau包絡に基づく代理LQRコストを定義し、新しい実現に効率的に適応可能なメタポリシーを効率的に見つける。"
"また、メタLQRコスト関数の近似第一次停留点を見つけるアルゴリズムを設計する。"