Der Artikel befasst sich mit dem Problem der Personenidentifizierung in einem heterogenen Kameranetzwerk, bestehend aus Luft- und Bodenkameras (AGPReID). Bestehende Methoden zur Personenidentifizierung haben zwar beachtliche Fortschritte erzielt, sind aber meist auf homogene Kameranetzwerke ausgerichtet und können die erheblichen Unterschiede in der Perspektive zwischen Luft- und Bodenkameras nicht effektiv handhaben.
Um diese Herausforderung zu adressieren, schlagen die Autoren einen neuartigen Ansatz namens "View-Decoupled Transformer" (VDT) vor. VDT zielt darauf ab, kameraabhängige und kameraunabhängige Merkmale zu entkoppeln, um eine robuste Personenidentifizierung zu ermöglichen. Dazu werden zwei Schlüsselkomponenten eingeführt:
Darüber hinaus tragen die Autoren einen großen synthetischen Datensatz namens CARGO bei, der fünf Luft- und acht Bodenkameras, 5.000 Identitäten und 108.563 Bilder umfasst und somit eine umfassende Benchmark für AGPReID darstellt.
Die Experimente zeigen, dass VDT die Leistung früherer Methoden deutlich übertrifft, insbesondere bei der Überbrückung der Perspektivunterschiede zwischen Luft- und Bodenkameras. VDT erzielt auf dem CARGO-Datensatz bis zu 5,0 % höhere mAP- und 2,7 % höhere Rank1-Werte als die Baseline und auf dem AG-ReID-Datensatz bis zu 3,7 % höhere mAP- und 5,2 % höhere Rank1-Werte, ohne dabei die Rechenleistung zu erhöhen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Quan Zhang,L... at arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14513.pdfDeeper Inquiries