Concepts de base
Das vorgeschlagene Verfahren AQATrack verwendet einfache autoregressive Abfragen, um die spatio-temporalen Informationen effektiv zu lernen, ohne viele handgefertigte Komponenten zu verwenden. Es kombiniert statisches Erscheinungsbild und instantane Änderungen, um ein robustes Tracking zu ermöglichen.
Résumé
Das Papier stellt einen adaptiven Tracker namens AQATrack vor, der spatio-temporale Transformatoren verwendet, um Objektverfolgung effizient durchzuführen.
Zunächst verwendet der Ansatz einen hierarchischen räumlichen Encoder (HiViT), um hervorragende räumliche Merkmale des Ziels zu lernen. Dann führt der zeitliche Decoder eine Reihe von lernbaren und autoregressiven Zielabfragen ein, um die instantanen Änderungen des Zielerscheinungsbilds in einem gleitenden Zeitfenster zu erfassen.
Eine spatio-temporale Informationsfusions-Modul (STM) kombiniert dann das statische Erscheinungsbild und die instantanen Änderungen, um eine robuste Verfolgung zu ermöglichen.
Ausführliche Experimente auf sechs gängigen Tracking-Benchmarks zeigen, dass der Ansatz die Leistung deutlich verbessert und neue Spitzenwerte erreicht, insbesondere auf Langzeit-Benchmarks wie LaSOT.
Stats
Die Methode kann in Echtzeit mit über 65 FPS auf einer Tesla V100 GPU laufen, was mehr als doppelt so schnell ist wie der Zustand der Technik.
AQATrack-384 erreicht einen AUC-Wert von 72,7% auf dem LaSOT-Benchmark, was einen neuen Spitzenwert darstellt.
Citations
"Um die spatio-temporalen Informationen vollständig zu erforschen, schlagen wir einen adaptiven Tracker vor, um die instantanen Erscheinungsänderungen ohne jegliche handgefertigten Komponenten zu erfassen."
"Basierend auf dem anfänglichen Zieltemplate und den erlernten autoregressiven Abfragen wird ein spatio-temporales Informationsfusions-Modul (STM) entworfen, um die spatio-temporale Formationsaggregation zur Lokalisierung eines Zielobjekts durchzuführen."