Die Studie präsentiert eine neuartige auf modellprädiktiver Steuerung (MPC) basierende Verstärkungslernen-Methode, die darauf abzielt, die Wertschätzung und die Modellierung der Umgebung zu verbessern, um die Lerneffizienz und die Stichprobennutzung intelligenter Agenten zu erhöhen.
Die Methode führt eine mehrstufige Vorhersage durch, um die Wertfunktion zu schätzen und die Politik zu optimieren. Sie verwendet einen deterministischen modellbasierten Ansatz, um die Umgebung zu approximieren, und wendet einen rollenden Optimierungsansatz an, um den kumulativen Ertrag für jedes Vorhersageintervall zu maximieren.
In Experimenten in klassischen Simulationsumgebungen und einem praktischen RL-Problem der dynamischen Hindernisumgehung für unbemannte Luftfahrzeuge (UAVs) zeigt die Methode, dass sie die Strategie schnell zum lokalen optimalen Wert konvergieren lässt, basierend auf weniger Interaktionsdaten. Die Autoren zeigen, dass die erlernten Modelle für den Zustandsübergang und die Belohnungsfunktion die reale Umgebung in Umgebungen mit niedriger Dimension gut approximieren, während in hochdimensionalen Umgebungen Modellungenauigkeiten zu einer suboptimalen Politik führen können.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Qizhen Wu,Ke... alle arxiv.org 04-12-2024
https://arxiv.org/pdf/2310.16646.pdfDomande più approfondite