Die Studie stellt eine neue Methode namens Instance-aware Visual Language Map (IVLMap) vor, um Roboter mit instanz- und attributbasierter semantischer Kartierung auszustatten. IVLMap wird durch das Fusionieren von RGBD-Videodaten mit speziell entwickelter natürlicher Sprachkartierung in der Vogelperspektive autonom erstellt. Diese Indexierung erfolgt auf Instanz- und Attributebene.
Wenn IVLMap mit einem großen Sprachmodell integriert wird, zeigt es die Fähigkeit, i) natürliche Sprache in Navigationsziele mit Instanz- und Attributinformationen umzuwandeln, um eine präzise Lokalisierung zu ermöglichen, und ii) nullbasierte End-zu-End-Navigationsaufgaben auf der Grundlage natürlicher Sprachbefehle durchzuführen.
Umfangreiche Navigationsexperimente wurden durchgeführt. Die Simulationsergebnisse zeigen, dass unsere Methode eine durchschnittliche Verbesserung der Navigationsgenauigkeit um 14,4% erreichen kann.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Jiacui Huang... às arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19336.pdfPerguntas Mais Profundas