本論文では、線形二次レギュレータ(LQR)問題を強化学習の観点から分析している。LQR問題は最適制御理論の基本的なベンチマークであり、最適制御則が線形で、リカッチ方程式によって完全に特徴付けられるという特徴がある。
著者らは、モデルパラメータが未知の場合でも、ε-最適性を達成するためには、O(1/ε)の関数評価回数で十分であることを示した。これは従来の研究よりも大幅に改善された結果である。
具体的には、以下の手順で分析を行っている:
これらの貢献により、従来の研究よりも大幅に改善された結果を示すことができた。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Amirreza Nes... klokken arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.10851.pdfDypere Spørsmål