Das Papier stellt einen adaptiven Tracker namens AQATrack vor, der spatio-temporale Transformatoren verwendet, um Objektverfolgung effizient durchzuführen.
Zunächst verwendet der Ansatz einen hierarchischen räumlichen Encoder (HiViT), um hervorragende räumliche Merkmale des Ziels zu lernen. Dann führt der zeitliche Decoder eine Reihe von lernbaren und autoregressiven Zielabfragen ein, um die instantanen Änderungen des Zielerscheinungsbilds in einem gleitenden Zeitfenster zu erfassen.
Eine spatio-temporale Informationsfusions-Modul (STM) kombiniert dann das statische Erscheinungsbild und die instantanen Änderungen, um eine robuste Verfolgung zu ermöglichen.
Ausführliche Experimente auf sechs gängigen Tracking-Benchmarks zeigen, dass der Ansatz die Leistung deutlich verbessert und neue Spitzenwerte erreicht, insbesondere auf Langzeit-Benchmarks wie LaSOT.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jinxia Xie,B... pada arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10574.pdfPertanyaan yang Lebih Dalam