Core Concepts
Ein modulares Steuerungssystem, das Verstärkungslernen mit einem prädiktiven Sicherheitsfilter kombiniert, um sichere und effiziente Navigationsfähigkeiten für autonome Oberflächenfahrzeuge zu erreichen.
Abstract
Das Kernziel dieser Arbeit ist die Entwicklung eines hybriden Algorithmus, der einen prädiktiven Sicherheitsfilter (PSF) und ein modellfreies Verstärkungslernen (RL) für Pfadverfolgung und Kollisionsvermeidung kombiniert, um den sicheren Betrieb autonomer Oberflächenfahrzeuge (ASV) in komplexen Umgebungen zu gewährleisten.
Die Autoren stellen zunächst das theoretische Konzept des PSF vor, der als Mechanismus dient, um Signale oder Eingaben, die potenziell Schäden verursachen könnten, herauszufiltern und so die Sicherheit und Integrität des Systems zu gewährleisten. Der PSF löst ein endliches Horizont-Optimierungsproblem, um eine minimal modifizierte, sichere Steueraktion zu berechnen.
Anschließend wird das RL-Verfahren Proximal Policy Optimization (PPO) erläutert, das verwendet wird, um den RL-Agenten für Pfadverfolgung und Kollisionsvermeidung zu trainieren. Der Beobachtungsvektor des RL-Agenten enthält sowohl Navigationsfunktionen als auch LiDAR-basierte Abstandsmessungen, die durch ein vortrainiertes konvolutionelles neuronales Netzwerk (CNN) verarbeitet werden.
Die Autoren beschreiben dann die Implementierung des PSF, einschließlich der Behandlung von beweglichen und statischen Hindernissen sowie der Berechnung des invarianten Endzustands-Satzes. Schließlich werden die Ergebnisse der Simulationsexperimente präsentiert, die zeigen, dass der kombinierte PSF/RL-Ansatz in der Lage ist, die Sicherheit zu gewährleisten, ohne die Lernrate und Leistung des RL-Agenten zu beeinträchtigen.
Stats
Die maximale Strömungsgeschwindigkeit Vc,max ist auf etwa 20% der maximalen Vorwärtsgeschwindigkeit umax eingestellt.
Die maximalen Störkräfte in Längs- und Querrichtung sind auf etwa 20% der maximalen Schubkraft Fu,max eingestellt, während das maximale Störmoment in Gierrichtung etwa 10% von Tr,max beträgt.
Quotes
"Der PSF löst ein endliches Horizont-Optimierungsproblem, um eine minimal modifizierte, sichere Steueraktion zu berechnen."
"Der kombinierte PSF/RL-Ansatz ist in der Lage, die Sicherheit zu gewährleisten, ohne die Lernrate und Leistung des RL-Agenten zu beeinträchtigen."