Das Kernziel dieser Arbeit ist die Entwicklung eines hybriden Algorithmus, der einen prädiktiven Sicherheitsfilter (PSF) und ein modellfreies Verstärkungslernen (RL) für Pfadverfolgung und Kollisionsvermeidung kombiniert, um den sicheren Betrieb autonomer Oberflächenfahrzeuge (ASV) in komplexen Umgebungen zu gewährleisten.
Die Autoren stellen zunächst das theoretische Konzept des PSF vor, der als Mechanismus dient, um Signale oder Eingaben, die potenziell Schäden verursachen könnten, herauszufiltern und so die Sicherheit und Integrität des Systems zu gewährleisten. Der PSF löst ein endliches Horizont-Optimierungsproblem, um eine minimal modifizierte, sichere Steueraktion zu berechnen.
Anschließend wird das RL-Verfahren Proximal Policy Optimization (PPO) erläutert, das verwendet wird, um den RL-Agenten für Pfadverfolgung und Kollisionsvermeidung zu trainieren. Der Beobachtungsvektor des RL-Agenten enthält sowohl Navigationsfunktionen als auch LiDAR-basierte Abstandsmessungen, die durch ein vortrainiertes konvolutionelles neuronales Netzwerk (CNN) verarbeitet werden.
Die Autoren beschreiben dann die Implementierung des PSF, einschließlich der Behandlung von beweglichen und statischen Hindernissen sowie der Berechnung des invarianten Endzustands-Satzes. Schließlich werden die Ergebnisse der Simulationsexperimente präsentiert, die zeigen, dass der kombinierte PSF/RL-Ansatz in der Lage ist, die Sicherheit zu gewährleisten, ohne die Lernrate und Leistung des RL-Agenten zu beeinträchtigen.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor