Core Concepts
Das RTRRL-Verfahren kombiniert eine Meta-RL-RNN-Architektur, einen TD(λ)-Akteur-Kritiker-Lernalgorithmus und ein biologisch plausibles RFLO-Optimierungsverfahren, um effizient diskrete und kontinuierliche Steuerungsaufgaben in teilbeobachtbaren Markov-Entscheidungsprozessen zu lösen.
Abstract
Der Artikel stellt einen neuen Ansatz für das echtzeitrekurrente Verstärkungslernen (RTRRL) vor, der es ermöglicht, diskrete und kontinuierliche Steuerungsaufgaben in teilbeobachtbaren Markov-Entscheidungsprozessen (POMDPs) auf eine biologisch plausible Art und Weise zu lösen.
RTRRL besteht aus drei Hauptkomponenten:
Eine Meta-RL-RNN-Architektur, die für sich genommen einen Akteur-Kritiker-Algorithmus implementiert.
Ein TD(λ)-Akteur-Kritiker-Lernalgorithmus, der zeitliche Differenzlernverfahren und niederländische Eligibilitätsspuren nutzt, um die Gewichte des Meta-RL-Netzwerks zu trainieren.
Ein biologisch plausibles RFLO-Optimierungsverfahren, das die Gradienten der Parameter des Meta-RL-Netzwerks berechnet.
Die Autoren vergleichen RTRRL mit gängigen, aber biologisch nicht plausiblen RL-Algorithmen, die BPTT oder RTRL für die Gradientenberechnung verwenden. Die Ergebnisse zeigen, dass die Verwendung von Näherungsgradienten wie in RFLO immer noch zufriedenstellende Lösungen findet und in einigen Fällen sogar den Stand der Technik übertrifft. Insbesondere übertraf RTRRL PPO mit BPTT bei der Lösung von Aufgaben, die Exploration in ungünstigen Umgebungen erfordern.
RTRRL ist in der Neurowissenschaft verankert und erklärt angemessen, wie biologische neuronale Netzwerke lernen, in unbekannten Umgebungen zu handeln. Die Netzwerkstruktur ähnelt dem Zusammenspiel von dorsalem und ventralem Striatum der Basalganglien, mit globalen RPEs, die in dopaminergen Bahnen gefunden werden, die vom ventralen tegmentalen Bereich und der Substantia nigra zona compacta zum Striatum und Kortex projizieren.
Stats
Die Verwendung von Näherungsgradienten wie in RFLO führt zu einer größeren Varianz aufgrund einer effektiven Stapelgröße von 1.
RTRRL hat eine ähnliche Genauigkeit wie PPO mit BPTT, aber in vielen Fällen eine deutlich schnellere Konvergenzzeit.
Der Ersatz von RFLO durch RTRL-Optimierung erhöht die Zeitkomplexität erheblich, ohne dass sich die Genauigkeit wesentlich verbessert.
Quotes
"RTRRL kann daher als ein Modell des belohnungsbasierten Lernens angesehen werden, das im menschlichen Gehirn stattfindet."
"Die Netzwerkstruktur ähnelt dem Zusammenspiel von dorsalem und ventralem Striatum der Basalganglien, mit globalen RPEs, die in dopaminergen Bahnen gefunden werden, die vom ventralen tegmentalen Bereich und der Substantia nigra zona compacta zum Striatum und Kortex projizieren."