Ein neues Framework für die visuelle Ortsbestimmung (VPR) namens BEV2PR wird vorgeschlagen, das strukturelle Hinweise in Vogelperspektive (BEV) nutzt, um die Leistung zu verbessern.
Die Arbeit zeigt, wie allgemeine Datensatzrepräsentationen, die als "Visual Distribution of Neuron Activations" (VDNA) bekannt sind, für eine robuste visuelle Ortsbestimmung verwendet werden können. Der Ansatz kombiniert die Vorteile von allgemeinen, robusten Merkmalsrepräsentationen und der Nutzung von Bildsequenzen zur Verbesserung der Leistung.
Ein transformerbasiertes tiefes Homographie-Schätzungsnetzwerk, das die geometrische Konsistenz von lokal abgestimmten Merkmalspaaren für eine schnelle und lernbare Neuordnung von Kandidatenbildern nutzt.