Der Artikel befasst sich mit der Personenwiederidentifizierung (ReID) in einem Luftbild-Bodenkamera-Netzwerk, einem praxisrelevanten, aber bisher wenig beachteten Szenario. Die bestehenden ReID-Methoden haben zwar beachtliche Fortschritte bei der erscheinungsbasierten Identitätszuordnung in homogenen Kameranetzwerken erzielt, sind aber nicht effektiv bei der Bewältigung der drastischen Sichtunterschiede in heterogenen Netzwerken.
Um diese Herausforderung anzugehen, schlagen die Autoren den View-entkoppelten Transformer (VDT) vor. VDT besteht aus zwei Hauptkomponenten:
Darüber hinaus tragen die Autoren einen großen synthetischen Datensatz namens CARGO bei, der 5.000 Identitäten und 108.563 Bilder aus 13 Kameras (5 Luftbild- und 8 Bodenkameras) umfasst und die Herausforderungen eines heterogenen Kameranetzwerks wie Sichtunterschiede, Auflösungsvariationen, Beleuchtungsänderungen und Verdeckungen abbildet.
Die Experimente zeigen, dass VDT die Leistung früherer Methoden auf zwei Datensätzen deutlich übertrifft, insbesondere bei der Überbrückung der Sichtunterschiede in heterogenen Abgleichen. VDT übersteigt den Vorgänger um bis zu 5,0 % bei mAP und 2,7 % bei Rank1 auf CARGO sowie 3,7 % bei mAP und 5,2 % bei Rank1 auf AG-ReID, ohne die Rechenleistung zu erhöhen.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Quan Zhang,L... kl. arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14513.pdfDybere Forespørgsler