Concepts de base
線形二次レギュレータ問題において、モデルパラメータが未知の場合でも、ε-最適性を達成するためには、O(1/ε)の関数評価回数で十分であることを示した。これは、従来の研究よりも大幅に改善された結果である。
Résumé
本論文では、線形二次レギュレータ(LQR)問題を強化学習の観点から分析している。LQR問題は最適制御理論の基本的なベンチマークであり、最適制御則が線形で、リカッチ方程式によって完全に特徴付けられるという特徴がある。
著者らは、モデルパラメータが未知の場合でも、ε-最適性を達成するためには、O(1/ε)の関数評価回数で十分であることを示した。これは従来の研究よりも大幅に改善された結果である。
具体的には、以下の手順で分析を行っている:
- 新しい勾配推定手法を提案し、モーメント集中不等式を用いて高確率上界を導出した。
- 時変学習率を採用することで、二点勾配推定を必要とせずに、O(1/ε)の収束率を達成した。
- 安定性に関する仮定を必要とせず、かつ確率的保証付きの結果を得た。
これらの貢献により、従来の研究よりも大幅に改善された結果を示すことができた。
Stats
線形二次レギュレータ問題では、最適制御則が線形で、リカッチ方程式によって完全に特徴付けられる。
モデルパラメータが未知の場合でも、ε-最適性を達成するためには、O(1/ε)の関数評価回数で十分である。
提案手法は、二点勾配推定を必要とせず、時変学習率を採用することで、高確率上界を得ることができる。
Citations
"我々は、REINFORCE [24, 23]に着想を得た新しい勾配推定手法を提案する。"
"我々の手法は、安定性に関する仮定を必要とせず、かつ確率的保証付きの結果を得ることができる。"