Das Papier stellt einen adaptiven Tracker namens AQATrack vor, der spatio-temporale Transformatoren verwendet, um Objektverfolgung effizient durchzuführen.
Zunächst verwendet der Ansatz einen hierarchischen räumlichen Encoder (HiViT), um hervorragende räumliche Merkmale des Ziels zu lernen. Dann führt der zeitliche Decoder eine Reihe von lernbaren und autoregressiven Zielabfragen ein, um die instantanen Änderungen des Zielerscheinungsbilds in einem gleitenden Zeitfenster zu erfassen.
Eine spatio-temporale Informationsfusions-Modul (STM) kombiniert dann das statische Erscheinungsbild und die instantanen Änderungen, um eine robuste Verfolgung zu ermöglichen.
Ausführliche Experimente auf sechs gängigen Tracking-Benchmarks zeigen, dass der Ansatz die Leistung deutlich verbessert und neue Spitzenwerte erreicht, insbesondere auf Langzeit-Benchmarks wie LaSOT.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jinxia Xie,B... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10574.pdfDomande più approfondite