Eine neue Robustheitskonzeption, die sowohl Unsicherheiten in den Merkmalen als auch in den Faktoren berücksichtigt, wird eingeführt, um die Effizienz und Skalierbarkeit robuster Verstärkungslernung in niedrigrangigen MDPs zu verbessern.
Tiefe Verstärkungslernsysteme für kontinuierliche Steuerung zeigen erhebliche Instabilität in ihrer Leistung über die Zeit. Diese Arbeit untersucht die Rückgabelandschaft, d.h. die Abbildung zwischen einer Richtlinie und einer Rückgabe, und zeigt, dass populäre Algorithmen verrauschte Nachbarschaften dieser Landschaft durchqueren, in denen ein einzelner Update der Richtlinienparameter zu einer breiten Palette von Rückgaben führt. Durch Betrachtung der Verteilung dieser Rückgaben kartieren wir die Landschaft, charakterisieren fehleranfällige Regionen des Richtlinienraums und enthüllen eine verborgene Dimension der Richtlinienqualität.
Durch die Integration des Polyak-Schrittweitenverfahrens in den Policy-Gradienten-Algorithmus kann die Schrittweite automatisch angepasst werden, ohne dass eine manuelle Feinabstimmung erforderlich ist. Dies führt zu einer schnelleren Konvergenz und stabileren Strategien.
Der Multi-Level Actor-Critic (MAC) Algorithmus erreicht globale Optimalität in durchschnittlichen Belohnungs-MDPs, ohne Kenntnis der Mischzeit zu benötigen, und zeigt eine engere Abhängigkeit von der Mischzeit als vorherige Methoden.
Eine einfache Mischungsrichtlinienparameterisierung kann die Stichprobeneffizienz von CVaR-Optimierungsalgorithmen verbessern, indem sie alle gesammelten Trajektorien für das Richtlinienupdate verwendet und das Problem des verschwindenden Gradienten bei flachen Verteilungsenden abmildert.
Eine einfache Mischungsrichtlinienparametrisierung kann die Stichprobeneffizienz von CVaR-Optimierungsalgorithmen verbessern, indem sie alle gesammelten Trajektorien für das Richtlinienupdate verwendet und das Problem des verschwindenden Gradienten bei flachen Verteilungsenden abmildert.
Kontextuelle Rekurrente Zustandsraummodelle (cRSSM) ermöglichen Dreamers Agenten, Kontextinformationen systematisch in ihre Weltmodelle zu integrieren, was ihre Fähigkeit zur Nullstellen-Generalisierung verbessert.
In einem verteilten Verstärkungslernsystem mit N Agenten, die unabhängig Markov-Ketten-Beobachtungen erzeugen, kann durch einmaliges Mitteln der Ergebnisse nach T Schritten eine lineare Beschleunigung im Vergleich zur zentralisierten Version erreicht werden, sowohl für TD(0) als auch für das allgemeinere TD(λ).
Viele scheinbar unterschiedliche Methoden und theoretische Konzepte zur Erlangung von Zustands- und Verlaufsrepräsentationen in der Verstärkungslernung basieren auf der gemeinsamen Idee der selbstvorhersagenden Abstraktion. Darüber hinaus liefert diese Arbeit theoretische Erkenntnisse zu weit verbreiteten Zielfunktionen und Optimierungstechniken wie dem Stop-Gradienten-Verfahren beim Lernen selbstvorhersagender Repräsentationen.
Der Kern dieser Arbeit ist ein neuartiger Ansatz für sicheres Verstärkungslernen, der darauf abzielt, die Verhaltensweisen guter Trajektorien nachzuahmen und schlechte Trajektorien zu vermeiden, anstatt sich auf die Schätzung von Kostenfunktionen zu verlassen.