Główne pojęcia
Ein neuartiger Ansatz zur Entkopplung von kameraabhängigen und kameraunabhängigen Merkmalen ermöglicht eine effiziente Personenidentifizierung in einem Netzwerk aus Luft- und Bodenkameras.
Streszczenie
Der Artikel befasst sich mit dem Problem der Personenidentifizierung in einem heterogenen Kameranetzwerk, bestehend aus Luft- und Bodenkameras (AGPReID). Bestehende Methoden zur Personenidentifizierung haben zwar beachtliche Fortschritte erzielt, sind aber meist auf homogene Kameranetzwerke ausgerichtet und können die erheblichen Unterschiede in der Perspektive zwischen Luft- und Bodenkameras nicht effektiv handhaben.
Um diese Herausforderung zu adressieren, schlagen die Autoren einen neuartigen Ansatz namens "View-Decoupled Transformer" (VDT) vor. VDT zielt darauf ab, kameraabhängige und kameraunabhängige Merkmale zu entkoppeln, um eine robuste Personenidentifizierung zu ermöglichen. Dazu werden zwei Schlüsselkomponenten eingeführt:
- Hierarchische subtraktive Trennung: Innerhalb des VDT-Netzwerks werden die globalen Merkmale und die kameraabhängigen Merkmale schrittweise voneinander getrennt.
- Orthogonale Verlustfunktion: Die verbleibenden kameraunabhängigen Merkmale werden zusätzlich dazu gezwungen, orthogonal zu den kameraabhängigen Merkmalen zu sein, um eine vollständige Entkopplung zu erreichen.
Darüber hinaus tragen die Autoren einen großen synthetischen Datensatz namens CARGO bei, der fünf Luft- und acht Bodenkameras, 5.000 Identitäten und 108.563 Bilder umfasst und somit eine umfassende Benchmark für AGPReID darstellt.
Die Experimente zeigen, dass VDT die Leistung früherer Methoden deutlich übertrifft, insbesondere bei der Überbrückung der Perspektivunterschiede zwischen Luft- und Bodenkameras. VDT erzielt auf dem CARGO-Datensatz bis zu 5,0 % höhere mAP- und 2,7 % höhere Rank1-Werte als die Baseline und auf dem AG-ReID-Datensatz bis zu 3,7 % höhere mAP- und 5,2 % höhere Rank1-Werte, ohne dabei die Rechenleistung zu erhöhen.
Statystyki
Die Personenidentifizierung in einem Netzwerk aus Luft- und Bodenkameras (AGPReID) ist eine herausfordernde Aufgabe, da die dramatischen Perspektivunterschiede zwischen den Kameratypen die Leistung beeinträchtigen.
Die vorgeschlagene Methode VDT erzielt auf dem CARGO-Datensatz bis zu 5,0 % höhere mAP- und 2,7 % höhere Rank1-Werte als die Baseline.
Auf dem AG-ReID-Datensatz erzielt VDT bis zu 3,7 % höhere mAP- und 5,2 % höhere Rank1-Werte als die vorherige Methode.
Cytaty
"Existing person re-identification methods have achieved remarkable advances in appearance-based identity association across homogeneous cameras, such as ground-ground matching. However, as a more practical scenario, aerial-ground person re-identification (AGPReID) among heterogeneous cameras has received minimal attention."
"To alleviate the disruption of discriminative identity representation by dramatic view discrepancy as the most significant challenge in AGPReID, the view-decoupled transformer (VDT) is proposed as a simple yet effective framework."