Core Concepts
Durch die Nutzung von Wissen über Raum-Objekt-Beziehungen aus großen Sprachmodellen kann die Effizienz der Objektzielnavigation verbessert werden.
Abstract
Die Studie präsentiert einen datengesteuerten, modularen Ansatz namens LROGNav, der Wissen über Raum-Objekt-Beziehungen aus großen Sprachmodellen nutzt, um die Effizienz der Objektzielnavigation zu verbessern.
LROGNav verwendet eine mehrkanälige Swin-Unet-Architektur, um Multimodal-Eingaben für mehrere Aufgaben zu integrieren. Die Hauptaufgabe ist es, sich dem Zielobjekt zu nähern. Eine Hilfsaufgabe ist es, die Richtung mit mehr unerforschtem Raum vorherzusagen, während eine andere Hilfsaufgabe die Wahrscheinlichkeit des Zielobjekts in verschiedenen Räumen basierend auf dem LLM-Wissen vorhersagt.
Die Simulationsexperimente zeigen, dass LROGNav im Vergleich zu verwandten Arbeiten eine durchschnittliche Verbesserung von 10,6 % bei der Effizienzmetrik "Success weighted by Path Length" (SPL) erzielt. Darüber hinaus wurde der Ansatz erfolgreich in einer Roboterumgebung getestet, bei der der Agent mehrere Räume durchquerte, um das Zielobjekt effizient zu finden.
Stats
Die Distanz zum Zielobjekt beträgt maximal 5 Meter.
Der Agent hat maximal 500 Zeitschritte, um das Zielobjekt zu finden.
Quotes
"Durch die Nutzung von Wissen über Raum-Objekt-Beziehungen aus großen Sprachmodellen kann die Effizienz der Objektzielnavigation verbessert werden."
"LROGNav erzielt im Vergleich zu verwandten Arbeiten eine durchschnittliche Verbesserung von 10,6 % bei der Effizienzmetrik 'Success weighted by Path Length' (SPL)."