Grunnleggende konsepter
有限時間探索線形二次制御問題における方策勾配法の収束に焦点を当てる。
Sammendrag
この記事は、有限時間連続型探索線形二次制御問題における方策勾配法のグローバルな収束について調査しています。離散時間問題と異なり、連続時間コスト関数が非強制的であることが分かります。新しいPG方法が提案され、異なるアクション頻度でも堅牢な線形収束を達成します。これらの手法は数値実験で検証され、提案アルゴリズムの収束性と堅牢性が確認されました。さらに、LQC問題に対するPG方法の理論的進展に関する技術的理由や挑戦も議論されています。
Statistikk
連続時間コスト関数が非強制的であることが分かります。
新しいPG方法が提案され、異なるアクション頻度でも堅牢な線形収束を達成します。
数値実験で提案アルゴリズムの収束性と堅牢性が確認されました。