핵심 개념
TD 학습과 선형 함수 근사의 유한 시간 수렴을 간단하고 효과적으로 분석하는 새로운 귀납적 방법론 소개
통계
"θt+1 = θt + αgt(θt), where α ≤ 1/(8τ)" - TD 학습에서 사용되는 상수 스텝 사이즈 α의 조건
"∥θt − θ∗∥2 ≤ B, ∀t ≥ 0" - TD 학습에서 생성된 이터레이트가 B에 대해 균일하게 바운드되는 조건
인용구
"Though temporal-difference learning is simple and elegant, a rigorous analysis of its behavior requires significant sophistication." - Tsitsiklis and Van Roy
"Our main contribution is to show this is possible via a novel two-step argument." - Aritra Mitra