Core Concepts
Durch die Nutzung von Basismodellen kann unser vorgeschlagenes OpenFMNav effektiv offene Objektnavigation in unbekannten Umgebungen durchführen, indem es natürlichsprachliche Anweisungen versteht und die Umgebung aktiv erforscht.
Abstract
Das Paper präsentiert einen neuartigen Rahmen namens OpenFMNav für offene, nullstellenbasierte Objektnavigation. Kernidee ist die Nutzung von Basismodellen, um natürlichsprachliche Anweisungen zu verstehen, Schlussfolgerungen zu ziehen und effektive nullstellenbasierte Objektnavigation durchzuführen.
Zunächst nutzt OpenFMNav große Sprachmodelle (LLMs), um aus natürlichsprachlichen Anweisungen mögliche Objektziele zu extrahieren. Dann verwendet es große visuelle Sprachmodelle (VLMs), um Objektkandidaten in der Szene aktiv zu entdecken und zu detektieren, und konstruiert daraus eine vielseitige semantische Bewertungskarte (VSSM). Schließlich führt ein großes Sprachmodell auf Basis der semantischen Informationen in der VSSM eine verständnisbasierte Erkundung und Ausbeutung der Szene durch, um das Zielobjekt effektiv zu finden.
Durch die Nutzung der Schlussfolgerungs- und Verallgemeinerungsfähigkeiten von Basismodellen kann OpenFMNav freie natürlichsprachliche Anweisungen verstehen und effektive offene nullstellenbasierte Navigation in verschiedenen Umgebungen durchführen. Umfangreiche Experimente auf dem HM3D ObjectNav-Benchmark zeigen, dass unsere Methode alle starken Basislinien in allen Metriken übertrifft und ihre Wirksamkeit belegt. Darüber hinaus wurden Demonstrationen auf echten Robotern durchgeführt, um die Offenheit und Verallgemeinerbarkeit unserer Methode auf Realweltumgebungen zu validieren.
Stats
Unsere Methode übertrifft den bisherigen State-of-the-Art-Ansatz für offene nullstellenbasierte Objektnavigation (Zhou et al., 2023) um über 15% bei der Erfolgsquote.
Quotes
"Durch die Nutzung der Schlussfolgerungs- und Verallgemeinerungsfähigkeiten von Basismodellen kann OpenFMNav freie natürlichsprachliche Anweisungen verstehen und effektive offene nullstellenbasierte Navigation in verschiedenen Umgebungen durchführen."
"Umfangreiche Experimente auf dem HM3D ObjectNav-Benchmark zeigen, dass unsere Methode alle starken Basislinien in allen Metriken übertrifft und ihre Wirksamkeit belegt."