핵심 개념
TD 학습과 선형 함수 근사의 유한 시간 수렴을 간단하고 효과적으로 분석하는 새로운 귀납적 방법론 소개
초록
TD 학습의 유한 시간 수렴을 분석하는 새로운 방법론 소개
TD 학습의 개요와 배경 소개
TD(0) 알고리즘과 선형 함수 근사에 대한 상세한 설명
유한 시간 수렴을 증명하기 위한 새로운 귀납적 방법론 소개
다양한 응용 분야에 대한 논의
통계
"θt+1 = θt + αgt(θt), where α ≤ 1/(8τ)" - TD 학습에서 사용되는 상수 스텝 사이즈 α의 조건
"∥θt − θ∗∥2 ≤ B, ∀t ≥ 0" - TD 학습에서 생성된 이터레이트가 B에 대해 균일하게 바운드되는 조건
인용구
"Though temporal-difference learning is simple and elegant, a rigorous analysis of its behavior requires significant sophistication." - Tsitsiklis and Van Roy
"Our main contribution is to show this is possible via a novel two-step argument." - Aritra Mitra