核心概念
Der Vorschlag eines View-entkoppelten Transformers (VDT) ermöglicht eine effektive Lösung für die Personenwiederidentifizierung in einem Luftbild-Bodenkamera-Netzwerk, indem er die signifikanten Sichtunterscheide zwischen Luftbild- und Bodenkameras überwindet.
要約
Der Artikel befasst sich mit der Personenwiederidentifizierung (ReID) in einem Luftbild-Bodenkamera-Netzwerk, einem praxisrelevanten, aber bisher wenig beachteten Szenario. Die bestehenden ReID-Methoden haben zwar beachtliche Fortschritte bei der erscheinungsbasierten Identitätszuordnung in homogenen Kameranetzwerken erzielt, sind aber nicht effektiv bei der Bewältigung der drastischen Sichtunterschiede in heterogenen Netzwerken.
Um diese Herausforderung anzugehen, schlagen die Autoren den View-entkoppelten Transformer (VDT) vor. VDT besteht aus zwei Hauptkomponenten:
- Hierarchische subtraktive Trennung: Innerhalb der VDT-Blöcke werden sichtbezogene und sichtunabhängige Merkmale getrennt, indem der Meta-Token (globale Darstellung) vom View-Token (sichtbezogene Merkmale) subtrahiert wird.
- Orthogonale Verlustfunktion: Diese Funktion stellt sicher, dass die verbleibenden sichtunabhängigen Merkmale im Meta-Token unabhängig von den sichtbezogenen Merkmalen im View-Token sind.
Darüber hinaus tragen die Autoren einen großen synthetischen Datensatz namens CARGO bei, der 5.000 Identitäten und 108.563 Bilder aus 13 Kameras (5 Luftbild- und 8 Bodenkameras) umfasst und die Herausforderungen eines heterogenen Kameranetzwerks wie Sichtunterschiede, Auflösungsvariationen, Beleuchtungsänderungen und Verdeckungen abbildet.
Die Experimente zeigen, dass VDT die Leistung früherer Methoden auf zwei Datensätzen deutlich übertrifft, insbesondere bei der Überbrückung der Sichtunterschiede in heterogenen Abgleichen. VDT übersteigt den Vorgänger um bis zu 5,0 % bei mAP und 2,7 % bei Rank1 auf CARGO sowie 3,7 % bei mAP und 5,2 % bei Rank1 auf AG-ReID, ohne die Rechenleistung zu erhöhen.
統計
Die Personenwiederidentifizierung in einem Luftbild-Bodenkamera-Netzwerk ist eine herausfordernde Aufgabe, da die drastischen Sichtunterschiede zwischen den Kameras die diskriminative Identitätsrepräsentation stark beeinträchtigen.
Die vorgeschlagene Methode VDT überwindet diese Herausforderung, indem sie sichtbezogene und sichtunabhängige Merkmale effektiv entkoppelt.
引用
"Existing person re-identification methods have achieved remarkable advances in appearance-based identity association across homogeneous cameras, such as ground-ground matching. However, as a more practical scenario, aerial-ground person re-identification (AGPReID) among heterogeneous cameras has received minimal attention."
"To alleviate the disruption of discriminative identity representation by dramatic view discrepancy as the most significant challenge in AGPReID, the view-decoupled transformer (VDT) is proposed as a simple yet effective framework."