Core Concepts
Wir stellen einen "Generate-and-Test"-Ansatz zur risikogebundenen Planung vor, bei dem ein Planer eine Kandidatentrajektorie unter Verwendung eines linearen Dynamikmodells erzeugt und ein Validator die Risiken der Trajektorie bewertet, um zusätzliche Sicherheitseinschränkungen für den Planer zu berechnen. Wir verwenden einen variationellen Autoencoder, um ein lineares Latent-Raum-Dynamikmodell zu lernen und das Planungsproblem in den Latent-Raum zu übertragen, um effiziente konvexe Optimierungstechniken zu nutzen.
Abstract
Die Arbeit befasst sich mit dem Problem der risikogebundenen Trajektorienplanung für autonome mobile Agenten mit stochastischer, nichtlinearer Dynamik, die aus Daten gelernt werden muss, da keine geschlossene Darstellung der Dynamik bekannt ist.
Der Ansatz verwendet einen "Generate-and-Test"-Ansatz, bei dem ein Planer zunächst eine Kandidatentrajektorie unter Verwendung eines linearen Dynamikmodells erzeugt. Ein Validator bewertet dann das Risiko dieser Trajektorie, indem er Trajektorienproben um die Kandidatentrajektorie herum generiert und die Kollisionswahrscheinlichkeit mit Hindernissen berechnet. Wenn das Risiko den vorgegebenen Grenzwert überschreitet, berechnet der Validator eine zusätzliche Sicherheitseinschränkung, die an den Planer zurückgegeben wird, um die Kandidatentrajektorie in der nächsten Iteration zu verfeinern.
Um ein lineares Dynamikmodell für den Planer zu erhalten, verwenden die Autoren einen variationellen Autoencoder, um ein lineares Latent-Raum-Dynamikmodell zu lernen. Das Planungsproblem wird dann in den Latent-Raum übertragen, um effiziente konvexe Optimierungstechniken nutzen zu können. Die dekodierte Trajektorie aus dem Latent-Raum wird dann an den Validator übergeben.
Die Autoren zeigen, dass ihr Ansatz eine Größenordnung effizienter ist als der Stand der Technik bei der risikogebundenen Trajektorienplanung für nichtlineare stochastische Agenten, bei nur geringem Verlust an Optimalität und Sicherheit. Außerdem demonstrieren sie die Anwendung ihres Algorithmus auf Echtzeitdaten eines autonomen Quadrotors.
Stats
Die Agentendynamik ist durch die folgende stochastische nichtlineare Gleichung gegeben:
xt+1 = xt + Δt(vt + ωvt)cos(θt + ωθt)
yt+1 = yt + Δt(vt + ωvt)sin(θt + ωθt)
Dabei sind (x, y) die Zustandsvariablen für die Position, (v, θ) die Steuereingaben für Geschwindigkeit und Lenkwinkel, und ωvt und ωθt sind Rauschvariablen mit Gleichverteilung im Bereich [-0.1, 0.1].
Quotes
"Unser Algorithmus konnte eine sichere Trajektorie für den Quadrocopter ohne Kenntnis der Dynamik generieren. Die resultierende Trajektorie berücksichtigt die Steuerbegrenzungen des Quadrotors, vermeidet die elliptischen Hindernisse und bringt den Agenten vom Ausgangszustand zum Ziel."