Core Concepts
Ein neuartiger autonomer Agent, der Umgebungsrückmeldungen nutzt, um seine Pläne in realistischen Szenarien anzupassen, und mehrere Domänenexperten einbindet, um Anweisungen zu verstehen, Szenen zu verstehen und Aktionen zu verfeinern.
Abstract
Die Studie präsentiert CorNav, einen innovativen autonomen Agenten, der für Zero-Shot-Vision-und-Sprach-Navigation (VLN) entwickelt wurde. CorNav zeichnet sich durch seine Fähigkeit aus, Umgebungsrückmeldungen zu nutzen, um seine Pläne in realistischen Szenarien anzupassen und so an dynamische Umgebungen anzupassen. Darüber hinaus bindet CorNav mehrere Domänenexperten ein, um Anweisungen zu verstehen, Szenen zu erfassen und Aktionen zu verfeinern.
Um die Leistungsfähigkeit des Agenten zu evaluieren, haben die Autoren einen realistischen Simulator auf Basis von Unreal Engine 5 entwickelt und das NavBench-Benchmark erstellt. NavBench umfasst vier Aufgaben: Objektnavigation, zielgerichtete Navigation mit einfachen Anweisungen, Ausführung abstrakter Anweisungen und schrittweise Anweisungsverfolgung. Die Autoren haben sieben Baseline-Modelle implementiert und CorNav mit diesen verglichen. Die Ergebnisse zeigen, dass CorNav die Baseline-Methoden in allen Aufgaben deutlich übertrifft und eine durchschnittliche Erfolgsquote von 28,1% erreicht, was eine Steigerung von 7,6% gegenüber dem besten Baseline-Modell darstellt.
Die Studie beinhaltet auch eine Ablationsanalyse, die die Bedeutung der Umgebungsrückmeldung, der Verlaufshistorie und der Einbeziehung mehrerer Experten für die Leistung von CorNav hervorhebt.
Stats
Die Agentenleistung wird anhand der folgenden Metriken gemessen:
Erfolgsquote (SR): Anteil der Episoden, in denen der Agent das Ziel erfolgreich erreicht (innerhalb von 1,5 m)
Erfolgsquote gewichtet mit inverser Pfadlänge (SPL): Erfolgsquote gewichtet mit der kürzesten Pfadlänge, normalisiert durch die tatsächliche Pfadlänge
Abstand zum Erfolg (DTS): Abstand des Agenten von der Erfolgsgrenze, wenn die Episode endet
Quotes
"CorNav zeichnet sich durch seine Fähigkeit aus, Umgebungsrückmeldungen zu nutzen, um seine Pläne in realistischen Szenarien anzupassen und so an dynamische Umgebungen anzupassen."
"Die Ergebnisse zeigen, dass CorNav die Baseline-Methoden in allen Aufgaben deutlich übertrifft und eine durchschnittliche Erfolgsquote von 28,1% erreicht, was eine Steigerung von 7,6% gegenüber dem besten Baseline-Modell darstellt."