SayNav ist ein neuer Ansatz, der Wissen aus Großsprachmodellen (LLMs) für eine effiziente Generalisierung zu komplexen Navigationsaufgaben in unbekannten großskaligen Umgebungen nutzt. SayNav verwendet einen neuartigen Verankerungsmechanismus, der inkrementell einen 3D-Szenegraphen der erkundeten Umgebung als Eingabe für LLMs aufbaut, um umsetzbare und kontextgerechte Hochebenen-Pläne für die Navigation zu generieren.
Der vom LLM generierte Plan wird dann von einem vortrainierten Niedrigebenen-Planer ausgeführt, der jeden geplanten Schritt als Kurzstrecken-Punktziel-Navigations-Teilaufgabe behandelt. SayNav generiert dynamisch Schritt-für-Schritt-Anweisungen während der Navigation und verfeinert kontinuierlich zukünftige Schritte basierend auf neu wahrgenommenen Informationen.
SayNav wird auf der Multi-Objekt-Navigation (MultiON) Aufgabe evaluiert, die erfordert, dass der Agent eine massive Menge an Menschenwissen nutzt, um effizient mehrere verschiedene Objekte in einer unbekannten Umgebung zu suchen. SayNav erzielt Spitzenergebnisse und übertrifft sogar eine Oracle-basierte Baseline mit starken Grundannahmen um mehr als 8% in Bezug auf die Erfolgsquote, was seine Fähigkeit zur Generierung dynamischer Pläne für das erfolgreiche Auffinden von Objekten in großen neuen Umgebungen unterstreicht.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Abhinav Rajv... at arxiv.org 04-05-2024
https://arxiv.org/pdf/2309.04077.pdfDeeper Inquiries