Core Concepts
Das vorgestellte Mehrkanalaufmerksamkeits-Assoziationsvorhersage-Netzwerk kann die Objektzustände auf effizientere Weise schätzen, indem es verschiedene Aufmerksamkeitsmechanismen nutzt, um kategoriebasierte semantische Merkmale für die Klassifizierung und lokale räumliche Details für die Regression zu erfassen.
Abstract
Die Studie präsentiert ein Mehrkanalaufmerksamkeits-Assoziationsvorhersage-Netzwerk (MAPNet) für visuelles Objekttracking. Das Netzwerk besteht aus zwei neuartigen Merkmalsverglechern: einem kategoriebasierten Matcher und einem raumbasierten Matcher. Der kategoriebasierte Matcher kombiniert Selbst-, Kreuz- und Kanalaufmerksamkeiten, um die kategorieabhängigen semantischen Merkmale für die Klassifizierung zu erfassen. Der raumbasierte Matcher nutzt stattdessen Raumaufmerksamkeiten, um die lokalen räumlichen Details für die Regression zu modellieren. Darüber hinaus wird ein duales Ausrichtungsmodul eingeführt, um die Korrespondenz zwischen den Klassifizierungs- und Regressionszweigen zu verbessern und so die Gesamtvorhersagequalität zu erhöhen. Umfangreiche Experimente auf fünf aktuellen Benchmarks zeigen, dass der auf dem vorgeschlagenen Vorhersagenetzwerk basierende Siamese-Tracker die Leistung der meisten state-of-the-art-Ansätze übertrifft.
Stats
Die durchschnittliche Überlappung (AO) des vorgeschlagenen Trackers auf dem GOT-10k-Datensatz beträgt 69,5%, was 2,4% höher ist als der Spitzenreiter TransT.
Auf dem LaSOT-Datensatz erzielt der vorgeschlagene Tracker eine Erfolgsquote (SR) von 66,1% und eine normalisierte Präzisionsrate (NPR) von 74,9%, was 1,2% bzw. 1,1% höher ist als der Spitzenreiter TransT.
Auf dem TrackingNet-Datensatz übertrifft der vorgeschlagene Tracker den Spitzenreiter ToMP um 0,8% bei der Erfolgsquote und 0,7% bei der normalisierten Präzisionsrate.
Quotes
"Das vorgestellte Mehrkanalaufmerksamkeits-Assoziationsvorhersage-Netzwerk kann die Objektzustände auf effizientere Weise schätzen, indem es verschiedene Aufmerksamkeitsmechanismen nutzt, um kategoriebasierte semantische Merkmale für die Klassifizierung und lokale räumliche Details für die Regression zu erfassen."
"Umfangreiche Experimente auf fünf aktuellen Benchmarks zeigen, dass der auf dem vorgeschlagenen Vorhersagenetzwerk basierende Siamese-Tracker die Leistung der meisten state-of-the-art-Ansätze übertrifft."