Effiziente Verstärkungslernung durch modellprädiktive Steuerung-basierte Wertschätzung
Eine verbesserte Verstärkungslernen-Methode, die auf modellprädiktiver Steuerung basiert und die Umgebung durch einen datengesteuerten Ansatz modelliert. Basierend auf dem erlernten Umgebungsmodell führt sie eine mehrstufige Vorhersage durch, um die Wertfunktion zu schätzen und die Politik zu optimieren. Die Methode zeigt eine höhere Lerneffizienz, eine schnellere Konvergenzgeschwindigkeit von Strategien, die zu dem lokalen optimalen Wert tendieren, und einen geringeren Stichprobenkapazitätsraum, der für den Erfahrungspuffer erforderlich ist.