المفاهيم الأساسية
Das vorgeschlagene TAFormer-Modell ermöglicht eine gleichzeitige Vorhersage zukünftiger Szenen und Bewegungszustände des interessierenden Ziels in Drohnenvideos, indem es die Dynamik von Videos und Bewegungsmustern des Ziels vereinheitlicht.
الملخص
Die Studie führt eine neuartige Aufgabe der zielgerichteten Vorhersage von Drohnenvideos ein, bei der sowohl zukünftige Szenen als auch Bewegungszustände des interessierenden Ziels gleichzeitig vorhergesagt werden sollen. Dafür wird ein Modell namens TAFormer entwickelt, das die Modellierung von Videosequenzen und Zielbewegungen vereint.
TAFormer besteht aus folgenden Schlüsselkomponenten:
- Spatiotemporal Attention (STA): Trennt das Lernen der Videodynamik in räumliche statische Aufmerksamkeit und zeitliche dynamische Aufmerksamkeit, um Objekterscheinung und -bewegung effektiv zu modellieren.
- Information Sharing Mechanism (ISM): Ermöglicht den Informationsaustausch zwischen Videosequenz und Zielbewegung durch zwei Sätze von Messenger-Token, um eine Ausrichtung und effektive Fusion der Merkmale aus beiden Modalitäten zu erreichen.
- Target-Sensitive Gaussian Loss (TSGL): Verstärkt die Empfindlichkeit des Modells sowohl für die Position als auch den Inhalt des Ziels, um die Genauigkeit der Vorhersagen in der Umgebung des Ziels zu verbessern.
Die Experimente auf den angepassten Datensätzen UAV123VP und VisDroneVP zeigen, dass TAFormer im Vergleich zu state-of-the-art-Methoden hervorragende Leistungen bei der zielgerichteten Videovorhersage erbringt.
الإحصائيات
Die mittlere quadratische Abweichung (MSE) des vorhergesagten Videos beträgt 1618,44 für die Konfiguration 8→8 und 1631,82 für 4→8 auf dem UAV123VP-Datensatz.
Der strukturelle Ähnlichkeitsindex (SSIM) des vorhergesagten Videos beträgt 0,535 für 8→8 und 0,528 für 4→8 auf UAV123VP.
Die durchschnittliche Überschneidung über Union (mIoU) der vorhergesagten Zielboxen beträgt 0,931 für 8→8 und 0,844 für 4→8 auf UAV123VP.
Der durchschnittliche Verschiebungsfehler (ADE) der vorhergesagten Zielboxenzentren beträgt 0,319 für 8→8 und 0,720 für 4→8 auf UAV123VP.
اقتباسات
"Das vorgeschlagene TAFormer-Modell ermöglicht eine gleichzeitige Vorhersage zukünftiger Szenen und Bewegungszustände des interessierenden Ziels in Drohnenvideos, indem es die Dynamik von Videos und Bewegungsmustern des Ziels vereinheitlicht."
"Durch den Informationsaustausch-Mechanismus (ISM) werden die Merkmale aus beiden Modalitäten aufeinander abgestimmt und effektiv fusioniert, was zu einer präziseren und zielgerichteten Vorhersage der Umgebungsentwicklung beiträgt."