מושגי ליבה
Ein neuartiger Ansatz zur Entkopplung von ansichtsabhängigen und ansichtsunabhängigen Merkmalen ermöglicht eine effektive Personenidentifizierung in Luftbild-Bodenkamera-Netzwerken, die eine deutliche Verbesserung gegenüber bestehenden Methoden zeigt.
תקציר
Der Artikel befasst sich mit dem Problem der Personenidentifizierung in heterogenen Kameranetzwerken, die sowohl Luft- als auch Bodenkameras umfassen (AGPReID). Bestehende Methoden zur Personenidentifizierung sind meist auf homogene Kameranetzwerke ausgerichtet und können die erheblichen Unterschiede in der Ansicht zwischen Luft- und Bodenkameras nicht effektiv handhaben.
Um diese Herausforderung zu adressieren, schlagen die Autoren einen neuartigen Ansatz namens "View-decoupled Transformer" (VDT) vor. VDT zielt darauf ab, ansichtsabhängige und ansichtsunabhängige Merkmale zu entkoppeln, um eine robuste Personenidentifizierung zu ermöglichen. Dazu werden zwei Schlüsselkomponenten eingeführt:
- Hierarchische subtraktive Trennung: Innerhalb der VDT-Blöcke werden die globalen Merkmale und die ansichtsabhängigen Merkmale schrittweise voneinander getrennt.
- Orthogonale Verlustfunktion: Die verbleibenden ansichtsunabhängigen Merkmale werden zusätzlich dazu gezwungen, orthogonal zu den ansichtsabhängigen Merkmalen zu sein, um eine vollständige Entkopplung zu erreichen.
Darüber hinaus tragen die Autoren einen großen synthetischen Datensatz namens CARGO bei, der fünf Luftkameras, acht Bodenkameras, 5.000 Identitäten und 108.563 Bilder umfasst. Dieser Datensatz dient als umfassende Benchmark für das AGPReID-Problem.
Die Experimente auf CARGO und dem bestehenden AG-ReID-Datensatz zeigen, dass VDT die Leistung gegenüber den Baseline-Methoden deutlich verbessern kann, insbesondere bei der Übertragung zwischen Luft- und Bodenkameras. VDT übertrifft den vorherigen Spitzenreiter um bis zu 5,0 % bei mAP und 2,7 % bei Rank1 auf CARGO sowie 3,7 % bei mAP und 5,2 % bei Rank1 auf AG-ReID, ohne dabei die Rechenleistung zu erhöhen.
סטטיסטיקה
Die Personenidentifizierung in Luftbild-Bodenkamera-Netzwerken (AGPReID) ist eine deutlich komplexere Aufgabe als die Personenidentifizierung in homogenen Kameranetzwerken, da die Ansichtsunterschiede zwischen Luft- und Bodenkameras sehr groß sind.
Die vorgeschlagene Methode VDT übertrifft den vorherigen Spitzenreiter um bis zu 5,0 % bei mAP und 2,7 % bei Rank1 auf dem CARGO-Datensatz sowie 3,7 % bei mAP und 5,2 % bei Rank1 auf dem AG-ReID-Datensatz.
ציטוטים
"Existing person re-identification methods have achieved remarkable advances in appearance-based identity association across homogeneous cameras, such as ground-ground matching. However, as a more practical scenario, aerial-ground person re-identification (AGPReID) among heterogeneous cameras has received minimal attention."
"To alleviate the disruption of discriminative identity representation by dramatic view discrepancy as the most significant challenge in AGPReID, the view-decoupled transformer (VDT) is proposed as a simple yet effective framework."