Wir schlagen ein neuartiges asynchrones föderiertes Verstärkungslernen-Framework namens AFedPG vor, das ein globales Modell durch Zusammenarbeit zwischen N Agenten unter Verwendung von Policy Gradient (PG)-Updates aufbaut. Um die Herausforderung verzögerter Richtlinien in asynchronen Umgebungen zu bewältigen, entwickeln wir verzögerungsadaptive Lookahead- und normalisierte Update-Techniken, die die heterogenen Ankunftszeiten von Policy Gradients effektiv handhaben können.
In dieser Arbeit wird ein neues Formalismus für Markov-Entscheidungsprozesse mit stochastischer Ausführungsverzögerung eingeführt. Es wird gezeigt, dass es ausreicht, die Suche nach einer optimalen Politik auf die Klasse der Markov-Politiken zu beschränken, um die bestmögliche Leistung zu erreichen. Basierend auf dieser Erkenntnis wird DEZ, ein modellbasierter Algorithmus, entwickelt, der die Stärken von EfficientZero nutzt, um mit Verzögerungen umzugehen.
Ein Verstärkungslernen-Algorithmus, der einen vorhersagenden Modell und Off-Policy-Lernelemente integriert, wobei ein Online-Planer verwendet wird, der durch eine neuartigkeitsbasierte Terminalwertfunktion verbessert wird, um effiziente Exploration zu ermöglichen.
Der SPO-Algorithmus führt zu einer effektiven Begrenzung der durchschnittlichen KL-Divergenz zwischen alter und aktueller Strategie, bei gleichzeitig höherer Strategieentropie und besserer Stichprobeneffizienz im Vergleich zu herkömmlichen PPO-Varianten.
Der Kern dieser Arbeit ist die Einführung einer neuen Klasse von Policy Mirror Descent (PMD) Algorithmen, die eine Vorausschau auf mehrere Schritte in den Politikverbesserungsschritt integrieren. Diese h-PMD Algorithmen zeigen eine schnellere dimensionsunabhängige γh-lineare Konvergenzrate im Vergleich zu herkömmlichen PMD Algorithmen.
Wir präsentieren den ersten primal-dualen Algorithmus, der eine sublineare starke Regret-Garantie ohne Fehlerausgleich in unbekannten eingeschränkten Markov-Entscheidungsprozessen erreicht.
Wir präsentieren den ersten Algorithmus, der eine horizonfreie Regret-Schranke für lineare Markov-Entscheidungsprozesse erreicht, bei denen die Größe des Übergangsmodells exponentiell oder sogar abzählbar unendlich sein kann.
Ein einfacher Ansatz, um bestehende optimistische Online-RL-Algorithmen durch Einbeziehung von Offline-Daten zu verbessern, kann zu ähnlichen nachweisbaren Gewinnen führen wie komplexere Ansätze, selbst wenn die Offline-Daten von schlechter Qualität sind.