Core Concepts
データから直接的にコントローラを設計する手法と、モデル推定を介してコントローラを設計する手法の比較分析を通じ、モデル推定の役割を明らかにする。
Abstract
本論文では、未知システムに対するデータ駆動型ポリシー反復の2つのアプローチ、すなわち間接的アプローチと直接的アプローチ、を分析している。
間接的アプローチでは、再帰的最小二乗法を用いてシステムモデルを推定し、その推定モデルに基づいてポリシー反復を行う。この手法では、モデル推定とコントローラ設計を閉ループ系として捉え、励起条件に依存しない収束性と頑健性を示す。
一方、直接的アプローチでは、モデル推定を介さずにデータから直接的にコントローラを設計する。最近提案された手法の拡張を行い、最適コントローラを得るための条件を明らかにする。
これらの分析に基づき、2つのアプローチの長所と短所を比較し、特に必要なサンプル数、収束性、励起条件の観点から、間接的アプローチの優位性を示す。シミュレーションによりこれらの結果を検証している。
Stats
未知システムのモデルを推定するためには、データの局所的持続性が必要である。
推定誤差の上界は、データの局所的持続性の程度に依存する。
ポリシー反復の収束率は指数関数的である。
Quotes
"データ駆動型制御は、システムの完全な数学的記述が利用できない場合に制御設計アプローチを提供することを目的とする非常にアクティブな研究領域である。"
"ポリシー反復は動的計画法アルゴリズムの代表的な問題設定であり、多くの近似動的計画法アルゴリズムの基盤となっている。"