Das Papier stellt einen adaptiven Tracker namens AQATrack vor, der spatio-temporale Transformatoren verwendet, um Objektverfolgung effizient durchzuführen.
Zunächst verwendet der Ansatz einen hierarchischen räumlichen Encoder (HiViT), um hervorragende räumliche Merkmale des Ziels zu lernen. Dann führt der zeitliche Decoder eine Reihe von lernbaren und autoregressiven Zielabfragen ein, um die instantanen Änderungen des Zielerscheinungsbilds in einem gleitenden Zeitfenster zu erfassen.
Eine spatio-temporale Informationsfusions-Modul (STM) kombiniert dann das statische Erscheinungsbild und die instantanen Änderungen, um eine robuste Verfolgung zu ermöglichen.
Ausführliche Experimente auf sechs gängigen Tracking-Benchmarks zeigen, dass der Ansatz die Leistung deutlich verbessert und neue Spitzenwerte erreicht, insbesondere auf Langzeit-Benchmarks wie LaSOT.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Jinxia Xie,B... في arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10574.pdfاستفسارات أعمق