Centrala begrepp
Die Kernaussage dieses Artikels ist, dass die Autoren eine neuartige Methode zur Parameteroptimierung, die sogenannte "Parameter Hierarchical Optimization" (PHO) Methode, für die Aufgabe der sichtbaren-infrarot-Personenwiederidentifizierung vorschlagen. Diese Methode ermöglicht es, einen Teil der Parameter direkt zu optimieren, ohne sie zu trainieren, was den Suchraum der Parameter verringert und das gesamte Netzwerk einfacher zu trainieren macht.
Sammanfattning
Der Artikel befasst sich mit dem Problem der sichtbaren-infrarot-Personenwiederidentifizierung (VI-ReID), bei dem Bilder von Personen, die von sichtbaren und infraroten Kameras aufgenommen wurden, einander zugeordnet werden müssen. Die Autoren identifizieren zwei Hauptherausforderungen: die großen Unterschiede zwischen den Modalitäten aufgrund der unterschiedlichen Bildgebungsmechanismen und die Intraklassen-Variationen aufgrund von Haltungsänderungen, unterschiedlichen Blickwinkeln, Verdeckungen im Hintergrund usw.
Um diese Herausforderungen anzugehen, schlagen die Autoren die "Parameter Hierarchical Optimization" (PHO) Methode vor. Dabei werden die Parameter des neuronalen Netzwerks in zwei Typen unterteilt: solche, die direkt optimiert werden können, und solche, die trainiert werden müssen. Die direkt optimierten Parameter werden dann mit einer selbstanpassenden Ausrichtungsstrategie (SAS) und einem automatisch gewichteten Ausrichtungsmodul (AAL) optimiert, ohne das gesamte Netzwerk zu trainieren. Darüber hinaus führen die Autoren ein "Cross-Modality Consistent Learning" (CCL) Verlustfunktion ein, um diskriminative Personenrepräsentationen zu extrahieren.
Die experimentellen Ergebnisse auf Bild- und Videodatensätzen für VI-ReID zeigen, dass die vorgeschlagene Methode die Leistung im Vergleich zu bestehenden Ansätzen verbessert.
Statistik
Die Methode reduziert den Suchraum der Parameter und macht das Training des gesamten Netzwerks einfacher.
Die selbstanpassende Ausrichtungsstrategie (SAS) kann die sichtbaren und infraroten Bilder automatisch aufeinander ausrichten.
Das automatisch gewichtete Ausrichtungsmodul (AAL) kann die Wichtigkeit der Merkmale in verschiedenen Dimensionen automatisch gewichten.
Die Cross-Modality Consistent Learning (CCL) Verlustfunktion extrahiert diskriminative Personenrepräsentationen mit Übersetzungskonsistenz.
Citat
"In PHO, partial parameters can be obtained with optimization principles instead of training, which reduces the search space of parameters and makes it more easier to optimize when training."
"We introduce the SAS to automatically align the visible and infrared images, which also alleviates the discrepancies between multi-modality images effectively."
"We establish the cross-modality consistent learning loss to ensure sufficient extracting the discriminative person representations by using cross-modal translation consistency."