핵심 개념
Die Analyse zeigt, wie TD-Lernen mit linearer Funktionsapproximation in endlicher Zeit konvergiert.
통계
Unter der Annahme eines konstanten Schrittmaßes α zeigt Theorem 1, dass die Iterationen von TD(0) gleichmäßig begrenzt bleiben.
Lemma 2 besagt, dass die Iterationen für die ersten τ-Zeitschritte begrenzt sind.
Lemma 3 und Lemma 4 zeigen, wie die Störungen und Verzögerungen in den Iterationen kontrolliert werden können.
인용구
"Die Iterationen von TD(0) bleiben unter einem konstanten Schrittmaß α gleichmäßig begrenzt." - Theorem 1
"Unsere Analyse zeigt, wie man Störungen und Verzögerungen in stochastischen Approximationsalgorithmen kontrollieren kann." - Beitrag und Beweisführung