Der Artikel befasst sich mit dem Problem der sichtbaren-infrarot-Personenwiederidentifizierung (VI-ReID), bei dem Bilder von Personen, die von sichtbaren und infraroten Kameras aufgenommen wurden, einander zugeordnet werden müssen. Die Autoren identifizieren zwei Hauptherausforderungen: die großen Unterschiede zwischen den Modalitäten aufgrund der unterschiedlichen Bildgebungsmechanismen und die Intraklassen-Variationen aufgrund von Haltungsänderungen, unterschiedlichen Blickwinkeln, Verdeckungen im Hintergrund usw.
Um diese Herausforderungen anzugehen, schlagen die Autoren die "Parameter Hierarchical Optimization" (PHO) Methode vor. Dabei werden die Parameter des neuronalen Netzwerks in zwei Typen unterteilt: solche, die direkt optimiert werden können, und solche, die trainiert werden müssen. Die direkt optimierten Parameter werden dann mit einer selbstanpassenden Ausrichtungsstrategie (SAS) und einem automatisch gewichteten Ausrichtungsmodul (AAL) optimiert, ohne das gesamte Netzwerk zu trainieren. Darüber hinaus führen die Autoren ein "Cross-Modality Consistent Learning" (CCL) Verlustfunktion ein, um diskriminative Personenrepräsentationen zu extrahieren.
Die experimentellen Ergebnisse auf Bild- und Videodatensätzen für VI-ReID zeigen, dass die vorgeschlagene Methode die Leistung im Vergleich zu bestehenden Ansätzen verbessert.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Zeng YU,Yunx... às arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07930.pdfPerguntas Mais Profundas