Core Concepts
Eine neuartige dreistufige Architektur, die speziell auf die Herausforderungen der Luft-Boden-Personenwiederidentifizierung ausgerichtet ist und eine erklärbare Aufmerksamkeitskomponente für die erhöhte Perspektive umfasst.
Abstract
Der Artikel stellt den AG-ReID.v2-Datensatz vor, der Bilder aus Drohnen-, CCTV- und tragbaren Kameraperspektiven umfasst. Der Datensatz zeichnet sich durch eine große Vielfalt an Identitäten, Auflösungen, Verdeckungen und Beleuchtungsbedingungen aus, was die Herausforderungen der Luft-Boden-Personenwiederidentifizierung widerspiegelt.
Darüber hinaus präsentiert der Artikel ein neuartiges dreistufiges Architekturmodell, das speziell für diese Aufgabe entwickelt wurde. Das Modell umfasst drei Hauptkomponenten:
Eine transformatorbasierte ReID-Stufe zur effizienten Merkmalsextraktion.
Eine erhöhte Aufmerksamkeitsstufe, die sich auf die Kopfregion konzentriert, um die Herausforderungen der Luftperspektive zu bewältigen.
Eine erklärbare ReID-Stufe, die attributbasierte Aufmerksamkeitskarten verwendet, um die Interpretierbarkeit des Modells zu verbessern.
Die experimentelle Auswertung zeigt, dass das vorgeschlagene Modell die Leistung bestehender Ansätze auf dem AG-ReID.v2-Datensatz übertrifft und einen wichtigen Schritt in Richtung effektiver Luft-Boden-Personenwiederidentifizierung darstellt.
Stats
Die Auflösung der Drohnenbilder reicht von 31x59 bis 371x678 Pixel.
Die Auflösung der CCTV-Bilder reicht von 22x23 bis 172x413 Pixel.
Die Auflösung der Bilder von der tragbaren Kamera ist vergleichbar mit den Drohnen- und CCTV-Bildern.
Quotes
"Die Entwicklung fortschrittlicher Luftfahrtplattformen und Bildgebungssensoren hat das Feld der luftgestützten Personenwiederidentifizierung erheblich vorangebracht."
"Die Integration von Luft- und Bodenbildern für die Personenwiederidentifizierung stellt jedoch spezifische Herausforderungen dar, die hauptsächlich auf Unterschiede in Blickwinkel, Pose und Auflösung zurückzuführen sind."