Das Papier stellt SAFE-GIL, eine neuartige Methode des Imitationslernens, vor. SAFE-GIL zielt darauf ab, die Sicherheit des erlernten Verhaltens zu verbessern, indem der Experte während der Datensammlung gezielt zu sicherheitskritischen Zuständen gelenkt wird.
Dazu wird die potenzielle Vorhersagefehler des Imitationsagenten als eine adversarische Störung in der Systemdynamik modelliert. Diese Störung wird mithilfe einer Hamilton-Jacobi-Erreichbarkeitsanalyse berechnet und während der Datensammlung auf den Experten angewendet. Dadurch werden Expertendemonstrationen in sicherheitskritischen Zuständen gesammelt, die dem Imitationsagenten beibringen, wie er sich aus solchen Situationen sicher erholen kann.
Die Methode wird in zwei Fallstudien evaluiert - autonome Bodennavigation und autonomes Flugzeug-Rollen. Die Ergebnisse zeigen, dass SAFE-GIL eine deutlich höhere Erfolgsquote als alternative Ansätze erreicht, insbesondere bei geringen Mengen an Trainingsdaten, wo die Fehleranfälligkeit des Imitationsagenten typischerweise am höchsten ist.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yusuf Umut C... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05249.pdfDeeper Inquiries