核心概念
Das vorgeschlagene PSDiff-Modell formuliert die Personensuche als einen dualen Entfernungsprozess von verrauschten Boxen und ReID-Einbettungen zu Grundwahrheiten. Es entwirft eine neue Collaborative Denoising Layer (CDL), um Detektions- und ReID-Teilaufgaben iterativ und kollaborativ zu optimieren, was die beiden Teilaufgaben gegenseitig verstärkt.
要約
Das PSDiff-Modell besteht aus drei Hauptkomponenten: einem Feature-Extraktor, einem dualen Rauschgenerator und einer kollaborativen Entfernungsschicht (CDL). Der Feature-Extraktor extrahiert hochwertige, mehrstufige bedingte Merkmale aus Szenenbildern. Der duale Rauschgenerator korrodiert dann Boxen und Einbettungen von Grundwahrheiten zu zufällig verteilten Rauschen. Schließlich verwendet die CDL diese verrauschten Eingaben, um iterativ und kollaborativ die Vorhersagen von Boxen und ReID-Einbettungen zu verfeinern.
Im Gegensatz zu herkömmlichen Ansätzen, die auf vordefinierte Objektkandidaten angewiesen sind, eliminiert PSDiff diese Abhängigkeit und formuliert die Personensuche als dualen Entfernungsprozess. Dadurch werden die beiden Teilaufgaben Detektion und ReID gleichberechtigt behandelt und eine effektive Zusammenarbeit zwischen ihnen ermöglicht.
Die umfangreichen Experimente auf CUHK-SYSU und PRW zeigen, dass PSDiff den Stand der Technik übertrifft und gleichzeitig eine geringere Parameterkomplexität und einen elastischeren Rechenaufwand aufweist.
統計
"Die Personensuche besteht aus 18.184 Bildern und 96.143 annotierten Personenbegrenzungsboxen (23.430 Boxen sind mit ID-Etiketten von 8.432 Identitäten versehen)."
"Das PRW-Dataset enthält 11.816 Videoframes und 43.110 Begrenzungsboxen (34.304 Boxen sind mit ID-Etiketten von 932 Identitäten versehen)."
引用
"Bestehende End-to-End-Methoden [1], [9], [10], [12]–[14] basieren zwangsläufig auf traditionellen Detektoren wie Faster-RCNN [15] oder DETR [16], die unvermeidlich empirische oder lernbare Personenkandidaten in den Personensuchrahmen einbringen."
"Bestehende Methoden [1], [9], [10] folgen nur dem Grundsatz, dass genauere Detektionsergebnisse mehr zum Lernen von ReID-Aufgaben beitragen, ignorieren aber, dass bessere ReID-Hinweise auch zu hochwertigeren Detektionsergebnissen führen können."