Das Papier stellt einen adaptiven Tracker namens AQATrack vor, der spatio-temporale Transformatoren verwendet, um Objektverfolgung effizient durchzuführen.
Zunächst verwendet der Ansatz einen hierarchischen räumlichen Encoder (HiViT), um hervorragende räumliche Merkmale des Ziels zu lernen. Dann führt der zeitliche Decoder eine Reihe von lernbaren und autoregressiven Zielabfragen ein, um die instantanen Änderungen des Zielerscheinungsbilds in einem gleitenden Zeitfenster zu erfassen.
Eine spatio-temporale Informationsfusions-Modul (STM) kombiniert dann das statische Erscheinungsbild und die instantanen Änderungen, um eine robuste Verfolgung zu ermöglichen.
Ausführliche Experimente auf sechs gängigen Tracking-Benchmarks zeigen, dass der Ansatz die Leistung deutlich verbessert und neue Spitzenwerte erreicht, insbesondere auf Langzeit-Benchmarks wie LaSOT.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jinxia Xie,B... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10574.pdfYêu cầu sâu hơn