Die Arbeit präsentiert einen neuen Ansatz zur visuellen Ortsbestimmung, der auf der Verwendung einer allgemeinen Datensatzrepräsentation namens "Visual Distribution of Neuron Activations" (VDNA) basiert. VDNA-Repräsentationen sind robust gegenüber Domänenverschiebungen und können natürlich Bildsequenzen verarbeiten.
Der Kern des Ansatzes ist es, eine VDNA-Repräsentation zu erstellen, indem die Aktivierungen von Neuronen in verschiedenen Schichten eines vortrainierten neuronalen Netzwerks (hier DINOv2) verfolgt werden. Um praktische Beschreiber für die visuelle Ortsbestimmung zu erhalten, wird dann ein leichtgewichtiger Encoder-Netzwerk trainiert, der die VDNA-Histogramme in kompaktere Vektoren abbildet.
Die Experimente zeigen, dass dieser Ansatz eine höhere Robustheit gegenüber Domänenverschiebungen aufweist als bestehende Methoden. Insbesondere in Umgebungen, die sich stark von den Trainingsdaten unterscheiden, wie Innenräume oder Luftaufnahmen, schneidet VDNA-PR deutlich besser ab als Vergleichsverfahren. Dies wird darauf zurückgeführt, dass die VDNA-Repräsentation Informationen aus verschiedenen Netzwerkschichten kombiniert und so eine allgemeinere und robustere Darstellung ermöglicht.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Benjamin Ram... at arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09025.pdfDeeper Inquiries