Verteiltes TD(λ) mit Markov-Sampling: Lineare Beschleunigung durch einmaliges Mitteln
In einem verteilten Verstärkungslernsystem mit N Agenten, die unabhängig Markov-Ketten-Beobachtungen erzeugen, kann durch einmaliges Mitteln der Ergebnisse nach T Schritten eine lineare Beschleunigung im Vergleich zur zentralisierten Version erreicht werden, sowohl für TD(0) als auch für das allgemeinere TD(λ).