Centrala begrepp
本研究では、状態と制御に依存する拡散係数を持つ連続時間線形二次制御問題に対して、モデルフリーのアクター-クリティックアルゴリズムを提案し、そのレグレット上界を導出した。提案手法は、モデルパラメータの推定を必要とせず、劣線形レグレットを達成できることを示した。
Sammanfattning
本論文は、連続時間強化学習の枠組みにおいて、状態と制御に依存する拡散係数を持つ線形二次制御問題を扱っている。
- 従来の研究では、拡散係数が定数の場合のみを扱っていたが、本研究では状態と制御に依存する一般的な場合を考えている。
- モデルフリーのアクター-クリティックアルゴリズムを提案し、その収束性と劣線形レグレット上界を理論的に示した。
- アルゴリズムでは、探索スケジュールを導入し、探索と活用のバランスを取っている。
- 数値実験により、提案手法がモデルベースの手法に比べて優れた性能を示すことを確認した。
Statistik
状態方程式のパラメータA、B、C、Dは全て1である。
目的関数のパラメータQ、Hも全て1である。
初期状態x0は1である。
時間区間Tは1である。