Основні поняття
Eine verbesserte Verstärkungslernen-Methode, die auf modellprädiktiver Steuerung basiert und die Umgebung durch einen datengesteuerten Ansatz modelliert. Basierend auf dem erlernten Umgebungsmodell führt sie eine mehrstufige Vorhersage durch, um die Wertfunktion zu schätzen und die Politik zu optimieren. Die Methode zeigt eine höhere Lerneffizienz, eine schnellere Konvergenzgeschwindigkeit von Strategien, die zu dem lokalen optimalen Wert tendieren, und einen geringeren Stichprobenkapazitätsraum, der für den Erfahrungspuffer erforderlich ist.
Анотація
Die Studie präsentiert eine neuartige auf modellprädiktiver Steuerung (MPC) basierende Verstärkungslernen-Methode, die darauf abzielt, die Wertschätzung und die Modellierung der Umgebung zu verbessern, um die Lerneffizienz und die Stichprobennutzung intelligenter Agenten zu erhöhen.
Die Methode führt eine mehrstufige Vorhersage durch, um die Wertfunktion zu schätzen und die Politik zu optimieren. Sie verwendet einen deterministischen modellbasierten Ansatz, um die Umgebung zu approximieren, und wendet einen rollenden Optimierungsansatz an, um den kumulativen Ertrag für jedes Vorhersageintervall zu maximieren.
In Experimenten in klassischen Simulationsumgebungen und einem praktischen RL-Problem der dynamischen Hindernisumgehung für unbemannte Luftfahrzeuge (UAVs) zeigt die Methode, dass sie die Strategie schnell zum lokalen optimalen Wert konvergieren lässt, basierend auf weniger Interaktionsdaten. Die Autoren zeigen, dass die erlernten Modelle für den Zustandsübergang und die Belohnungsfunktion die reale Umgebung in Umgebungen mit niedriger Dimension gut approximieren, während in hochdimensionalen Umgebungen Modellungenauigkeiten zu einer suboptimalen Politik führen können.
Статистика
Die Umgebung kann durch ein Markov-Entscheidungsprozess-Modell dargestellt werden, das durch einen Fünf-Tupel (S, A, P, R, γ) definiert ist, wobei S den Umgebungszustandsraum, A den Aktionsraum, P die Zustandsübergangsfunktion, R die Belohnungsfunktion und γ den Diskontfaktor bezeichnet.
Die Verlustfunktion für die Wertschätzung lautet: Lω = E(s,a)∼B∥Qω (s, a) −y∥2, wobei y = R (s, a)+γ max Qω−(s′, a′) der Q-Zielwert ist.
Die Verlustfunktionen für das Erlernen des Umgebungsmodells lauten: Lθ = E(sk,ak)∼B∥(ŝk+1 −sk+1)∥2 und Lτ = E(sk,ak)∼B∥(r̂k −rk)∥2.
Цитати
"Eine verbesserte Verstärkungslernen-Methode, die auf modellprädiktiver Steuerung basiert und die Umgebung durch einen datengesteuerten Ansatz modelliert."
"Die Methode zeigt eine höhere Lerneffizienz, eine schnellere Konvergenzgeschwindigkeit von Strategien, die zu dem lokalen optimalen Wert tendieren, und einen geringeren Stichprobenkapazitätsraum, der für den Erfahrungspuffer erforderlich ist."