Der Artikel befasst sich mit dem Problem der Personenidentifizierung in heterogenen Kameranetzwerken, die sowohl Luft- als auch Bodenkameras umfassen (AGPReID). Bestehende Methoden zur Personenidentifizierung sind meist auf homogene Kameranetzwerke ausgerichtet und können die erheblichen Unterschiede in der Ansicht zwischen Luft- und Bodenkameras nicht effektiv handhaben.
Um diese Herausforderung zu adressieren, schlagen die Autoren einen neuartigen Ansatz namens "View-decoupled Transformer" (VDT) vor. VDT zielt darauf ab, ansichtsabhängige und ansichtsunabhängige Merkmale zu entkoppeln, um eine robuste Personenidentifizierung zu ermöglichen. Dazu werden zwei Schlüsselkomponenten eingeführt:
Darüber hinaus tragen die Autoren einen großen synthetischen Datensatz namens CARGO bei, der fünf Luftkameras, acht Bodenkameras, 5.000 Identitäten und 108.563 Bilder umfasst. Dieser Datensatz dient als umfassende Benchmark für das AGPReID-Problem.
Die Experimente auf CARGO und dem bestehenden AG-ReID-Datensatz zeigen, dass VDT die Leistung gegenüber den Baseline-Methoden deutlich verbessern kann, insbesondere bei der Übertragung zwischen Luft- und Bodenkameras. VDT übertrifft den vorherigen Spitzenreiter um bis zu 5,0 % bei mAP und 2,7 % bei Rank1 auf CARGO sowie 3,7 % bei mAP und 5,2 % bei Rank1 auf AG-ReID, ohne dabei die Rechenleistung zu erhöhen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Quan Zhang,L... at arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14513.pdfDeeper Inquiries