Eine verbesserte Verstärkungslernen-Methode, die auf modellprädiktiver Steuerung basiert und die Umgebung durch einen datengesteuerten Ansatz modelliert. Basierend auf dem erlernten Umgebungsmodell führt sie eine mehrstufige Vorhersage durch, um die Wertfunktion zu schätzen und die Politik zu optimieren. Die Methode zeigt eine höhere Lerneffizienz, eine schnellere Konvergenzgeschwindigkeit von Strategien, die zu dem lokalen optimalen Wert tendieren, und einen geringeren Stichprobenkapazitätsraum, der für den Erfahrungspuffer erforderlich ist.
Der Kern dieser Arbeit ist die Einführung von Maximum Mean Discrepancy Q-Learning (MMD-QL), einem neuen Algorithmus zur Verbesserung der Erkundung in der Verstärkungslernung durch effiziente Propagierung der Unsicherheit von Wertfunktionen unter Verwendung des MMD-Barycenter.
Switchback-Designs, bei denen zwischen einer Baseline- und einer neuen Politik abgewechselt wird, können die Genauigkeit der Schätzung des durchschnittlichen Behandlungseffekts im Vergleich zu alternierenden Tagesdesigns verbessern, insbesondere wenn die Mehrheit der Belohnungsfehler positiv korreliert ist.
Es existieren Richtungen im Parameterraum, die eine deutlich höhere Krümmung in der Verlustfunktion aufweisen als andere Richtungen. Die Gradienten der Akteur- und Kritikernetzwerke von PPO und SAC liegen zu einem großen Teil in dem von diesen Richtungen aufgespannten Unterraum, der sich auch über den Trainingsverlauf hinweg relativ stabil verhält.
Datenaugmentierung kann die Dateneffizienz von modellfreier Verstärkungslernung in Aufgaben mit spärlicher Belohnung deutlich verbessern, indem sie die Zustandsaktionsabdeckung erhöht und die Anzahl der Aktualisierungen pro generierter Transition reduziert.