本論文では、不確定な離散時間線形時不変動的システムのポリシー推定問題を研究している。Moreau包絡に基づく代理LQRコストを定義し、新しい実現に効率的に適応可能なメタポリシーを効率的に見つめる手法を提案している。また、メタLQRコスト関数の近似第一次停留点を見つけるアルゴリズムを設計している。
アルゴリズムの収束性を分析し、提案手法が新しい実現に対する適応コストを最小化することを示している。さらに、モデルベースおよびモデルフリーのポリシー勾配手法の両方に適用可能であることを示している。
数値実験では、提案手法がナイーブな平均コントローラーよりも優れた性能を示し、MAML手法よりも良いサンプル複雑度を持つことを実証している。
To Another Language
from source content
arxiv.org
Djupare frågor