深層強化学習は実用的な多くの大規模アプリケーションで優れた性能を発揮します。しかし、既存のパフォーマンス分析は連続時間制御問題の特性を無視し、Bellman最適損失の一般化誤差を直接推定することができず、境界条件付きである必要があります。この研究では、連続時間制御問題に焦点を当て、半群とリプシッツ特性を満たす遷移関数があるすべての問題に適用可能な方法を提案します。この方法では、Bellman最適損失の事前一般化誤差を直接分析できます。この方法の中心は、損失関数の2つの変換にあります。変換を完了するために、最大演算子の分解法を提案します。さらに、この分析方法は境界条件付きでないことも特筆されます。最終的に、次元呪いなしで事前一般化誤差を得ることができます。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Shuyu Yin,Qi... klokken arxiv.org 03-07-2024
https://arxiv.org/pdf/2402.16899.pdfDypere Spørsmål