Der Artikel präsentiert einen modellbasierten Ansatz zum Training von Feedback-Reglern für einen autonomen Agenten, der in einer hochgradig nichtlinearen Umgebung operiert. Das Ziel ist es, eine trainierte Richtlinie zu gewährleisten, die bestimmte Aufgabenziele und Sicherheitsanforderungen erfüllt, die in diskreter zeitlicher Signaltemporaler Logik (DT-STL) ausgedrückt sind.
Der Ansatz verwendet Feedback-Regler und geht davon aus, dass ein vorwärtsgerichtetes neuronales Netzwerk zum Lernen dieser Feedback-Regler verwendet wird. Das Lernen dieses Problems ähnelt dem Training rekurrenter neuronaler Netze (RNNs), wobei die Anzahl der rekurrenten Einheiten proportional zum zeitlichen Horizont der Aufgabenziele des Agenten ist. Dies stellt eine Herausforderung dar, da RNNs anfällig für verschwindende und explodierende Gradienten sind, und naive Gradientenabstiegsstrategien daher unter denselben Problemen leiden.
Um diese Herausforderung zu bewältigen, führen die Autoren einen neuartigen Gradientenapproximationsalgorithmus ein, der auf der Idee von Dropout oder Gradientenprobenahme basiert. Außerdem schlagen sie neue glatte Semantiken für DT-STL vor, die den Robustheitswert unterschätzen und gut für die Rückwärtsausbreitung über komplexe Spezifikationen skalieren.
Die Autoren zeigen, dass ihr Steuerungssynthese-Ansatz hilfreich sein kann, um stochastischen Gradientenabstieg mit weniger numerischen Problemen konvergieren zu lassen, was eine skalierbare Rückwärtsausbreitung über lange Zeithorizonte und Trajektorien in hochdimensionalen Zustandsräumen ermöglicht. Sie demonstrieren die Wirksamkeit ihres Ansatzes anhand verschiedener Bewegungsplanungsanwendungen, die komplexe raum-zeitliche und sequenzielle Aufgaben über Tausende von Zeitschritten erfordern.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Navid Hashem... alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15826.pdfDomande più approfondite