Kernkonzepte
비평활 계약 SA와 Q-learning 알고리즘의 정상 상태 수렴을 약 수렴 거리로 보이고, 편향의 특성을 제시한다. 특히 비평활성으로 인해 편향이 제곱근 스텝 크기에 비례하는 것을 밝힌다.
Zusammenfassung
이 논문은 비평활 계약 SA와 Q-learning 알고리즘의 정상 상태 수렴과 편향 특성을 분석한다.
- 비평활 계약 SA 모델:
- 비평활 연산자 T가 g ◦ F 분해 가능한 경우를 고려
- 가산 잡음 {wt}에 대해 2n차 모멘트 유한 가정
- 반복 {θ(α)
t }의 약 수렴과 기하급수적 수렴 속도를 보임
- 정상 상태 분포 θ(α)의 정상 상태 수렴을 보이고, 편향이 제곱근 스텝 크기에 비례함을 밝힘
- Q-learning 모델:
- 승수 잡음을 포함하는 비평활 SA 모델
- 2n차 모멘트 유한 가정 하에 반복 {q(α)
t }의 약 수렴과 기하급수적 수렴 속도를 보임
- 정상 상태 분포 q(α)의 정상 상태 수렴을 보이고, 편향이 제곱근 스텝 크기에 비례함을 밝힘
- MDP 유형에 따라 편향의 정확한 특성을 제시
- 이러한 편향 특성을 바탕으로 Polyak-Ruppert 평균화와 Richardson-Romberg 외삽법의 편향 감소 효과를 분석
Statistiken
E[∥θ(α)
t - θ∗∥2n
c ] ≤ cn E[∥θ(α)
tα,n - θ∗∥2n
c ](1 - α(1 - √γ))t-tα,n + c'n αn, t ≥ tα,n
E[∥q(α)
t - q∗∥2n
c ] ≤ cn E[∥q(α)
tα,n - q∗∥2n
c ](1 - α(1 - √γ0))t-tα,n + c'n αn, t ≥ tα,n
Zitate
"E[θ(α)] - θ∗ = E[Y] · √α + o(√α)"
"E[Y] ≠ 0 if Var(w0) is positive definite and there exists i ∈[d] such that the subdifferential or supdifferential of hi(θ) := gi(∇F(0)θ) at 0 is not a singleton"
"E[Y] ≠ 0 if the underlying MDP is in Type A and Var(H̃(q∗, {D0, P0, r0})) is positive definite"