Core Concepts
非線形システムの制御指向型識別のための新しい能動学習アルゴリズムを提案し、その有限サンプル解析を行う。アルゴリズムの過剰制御コストが最適レートに近いことを示す。
Abstract
本論文では、非線形システムの制御指向型識別のための新しい能動学習アルゴリズム「ALCOI」を提案している。従来の研究は線形パラメータ依存のモデルクラスに限定されていたが、本研究では一般の非線形ダイナミクスを扱う。
アルゴリズムの概要は以下の通り:
初期の探索フェーズで粗い推定値ˆ
ϕ-を得る
ˆ
ϕ-を用いて制御指向の探索目的関数を定義し、それを最小化する探索政策を決定する
得られた探索政策を用いて新たなデータを収集し、最終的な推定値ˆ
ϕ+を得る
ˆ
ϕ+を用いて確実性等価制御政策を合成する
この手順により、探索と制御の両面で最適なパフォーマンスが得られることが示されている。具体的には、過剰制御コストが最適レートに近いことが証明されている。
この結果は、非線形システムの制御指向型識別における重要な一歩となる。従来の線形パラメータ依存モデルの枠組みを超え、より一般的な非線形ダイナミクスに対する理解を深めるものである。
Stats
探索エピソード数Nが十分大きい場合、過剰制御コストは以下の上界を持つ:
clog(dϕ/δ)/N × min_π∈Πexp tr(H(ϕ⋆)FIπ(ϕ⋆)^(-1))
ここで、cは正の定数、dϕはパラメータの次元、δは信頼度、Hはモデル-タスクヘッシアン、FIπはπ下でのフィッシャー情報行列を表す。
Quotes
"本研究では、非線形システムの制御指向型識別のための新しい能動学習アルゴリズム「ALCOI」を提案している。"
"ALCOIアルゴリズムの過剰制御コストが最適レートに近いことを示している。"