Konvergenzanalyse des Off-Policy Multi-Schritt TD-Lernens mit linearer Funktionsapproximation
Für hinreichend großes Stichprobenhorizont n konvergieren n-Schritt TD-Lernalgorithmen zu einer nützlichen Lösung, auch im "tödlichen Dreieck"-Szenario mit linearer Funktionsapproximation, Off-Policy-Lernen und Bootstrapping.