핵심 개념
連続時間制御問題におけるBellman最適損失の事前推定方法を提案する。
초록
深層強化学習は実用的な多くの大規模アプリケーションで優れた性能を発揮します。しかし、既存のパフォーマンス分析は連続時間制御問題の特性を無視し、Bellman最適損失の一般化誤差を直接推定することができず、境界条件付きである必要があります。この研究では、連続時間制御問題に焦点を当て、半群とリプシッツ特性を満たす遷移関数があるすべての問題に適用可能な方法を提案します。この方法では、Bellman最適損失の事前一般化誤差を直接分析できます。この方法の中心は、損失関数の2つの変換にあります。変換を完了するために、最大演算子の分解法を提案します。さらに、この分析方法は境界条件付きでないことも特筆されます。最終的に、次元呪いなしで事前一般化誤差を得ることができます。
통계
r(s, a) ≤ 1
γ ∈ (0, 1)
λ > 72|A|³p² ln(2d) + 9 ln(|A| /δ) + 18
인용구
"Deep reinforcement learning excels in numerous large-scale practical applications."
"Our work focuses on continuous-time control problems and proposes a method that is applicable to all such problems."
"The core of this method lies in two transformations of the loss function."
"This analysis method does not require a boundedness assumption."
"We obtain an a priori generalization error without the curse of dimensionality."