In dieser Arbeit wird ein verteiltes Verstärkungslernsystem mit N Agenten betrachtet, die unabhängig Markov-Ketten-Beobachtungen erzeugen. Es wird gezeigt, dass in diesem Szenario durch einmaliges Mitteln der Ergebnisse nach T Schritten eine lineare Beschleunigung im Vergleich zur zentralisierten Version erreicht werden kann, sowohl für TD(0) als auch für das allgemeinere TD(λ).
Zunächst werden die grundlegenden Konzepte des Markov-Entscheidungsprozesses (MDP), der Wertfunktionsapproximation und des verteilten Markov-Modells eingeführt. Dann werden die Konvergenzzeiten für zentralisiertes TD(0) und TD(λ) diskutiert.
Der Hauptbeitrag besteht in den Theoremen 3.1 und 3.2, die zeigen, dass die verteilte Version mit N Knoten N-mal schneller ist als die vergleichbare zentralisierte Version für hinreichend großes T. Dies wird durch eine einfache Beobachtung erreicht: Die Varianz der unerwarteten Aktualisierung ist kleiner als die Varianz der erwarteten Aktualisierung, was zu einer linearen Beschleunigung führt.
Die Beweise verwenden neue Techniken, die sich von früheren Arbeiten unterscheiden, und erweitern diese, um sowohl Markov-Sampling als auch das allgemeinere TD(λ) zu behandeln.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询