Die Studie stellt eine neue Methode namens Instance-aware Visual Language Map (IVLMap) vor, um Roboter mit instanz- und attributbasierter semantischer Kartierung auszustatten. IVLMap wird durch das Fusionieren von RGBD-Videodaten mit speziell entwickelter natürlicher Sprachkartierung in der Vogelperspektive autonom erstellt. Diese Indexierung erfolgt auf Instanz- und Attributebene.
Wenn IVLMap mit einem großen Sprachmodell integriert wird, zeigt es die Fähigkeit, i) natürliche Sprache in Navigationsziele mit Instanz- und Attributinformationen umzuwandeln, um eine präzise Lokalisierung zu ermöglichen, und ii) nullbasierte End-zu-End-Navigationsaufgaben auf der Grundlage natürlicher Sprachbefehle durchzuführen.
Umfangreiche Navigationsexperimente wurden durchgeführt. Die Simulationsergebnisse zeigen, dass unsere Methode eine durchschnittliche Verbesserung der Navigationsgenauigkeit um 14,4% erreichen kann.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문