Основные понятия
Die Arbeit zeigt, wie allgemeine Datensatzrepräsentationen, die als "Visual Distribution of Neuron Activations" (VDNA) bekannt sind, für eine robuste visuelle Ortsbestimmung verwendet werden können. Der Ansatz kombiniert die Vorteile von allgemeinen, robusten Merkmalsrepräsentationen und der Nutzung von Bildsequenzen zur Verbesserung der Leistung.
Аннотация
Die Arbeit präsentiert einen neuen Ansatz zur visuellen Ortsbestimmung, der auf der Verwendung einer allgemeinen Datensatzrepräsentation namens "Visual Distribution of Neuron Activations" (VDNA) basiert. VDNA-Repräsentationen sind robust gegenüber Domänenverschiebungen und können natürlich Bildsequenzen verarbeiten.
Der Kern des Ansatzes ist es, eine VDNA-Repräsentation zu erstellen, indem die Aktivierungen von Neuronen in verschiedenen Schichten eines vortrainierten neuronalen Netzwerks (hier DINOv2) verfolgt werden. Um praktische Beschreiber für die visuelle Ortsbestimmung zu erhalten, wird dann ein leichtgewichtiger Encoder-Netzwerk trainiert, der die VDNA-Histogramme in kompaktere Vektoren abbildet.
Die Experimente zeigen, dass dieser Ansatz eine höhere Robustheit gegenüber Domänenverschiebungen aufweist als bestehende Methoden. Insbesondere in Umgebungen, die sich stark von den Trainingsdaten unterscheiden, wie Innenräume oder Luftaufnahmen, schneidet VDNA-PR deutlich besser ab als Vergleichsverfahren. Dies wird darauf zurückgeführt, dass die VDNA-Repräsentation Informationen aus verschiedenen Netzwerkschichten kombiniert und so eine allgemeinere und robustere Darstellung ermöglicht.
Статистика
Die Arbeit verwendet keine spezifischen Zahlen oder Metriken, die extrahiert werden müssen.
Цитаты
Es sind keine hervorstechenden Zitate in dem Artikel enthalten.