Das PSDiff-Modell besteht aus drei Hauptkomponenten: einem Feature-Extraktor, einem dualen Rauschgenerator und einer kollaborativen Entfernungsschicht (CDL). Der Feature-Extraktor extrahiert hochwertige, mehrstufige bedingte Merkmale aus Szenenbildern. Der duale Rauschgenerator korrodiert dann Boxen und Einbettungen von Grundwahrheiten zu zufällig verteilten Rauschen. Schließlich verwendet die CDL diese verrauschten Eingaben, um iterativ und kollaborativ die Vorhersagen von Boxen und ReID-Einbettungen zu verfeinern.
Im Gegensatz zu herkömmlichen Ansätzen, die auf vordefinierte Objektkandidaten angewiesen sind, eliminiert PSDiff diese Abhängigkeit und formuliert die Personensuche als dualen Entfernungsprozess. Dadurch werden die beiden Teilaufgaben Detektion und ReID gleichberechtigt behandelt und eine effektive Zusammenarbeit zwischen ihnen ermöglicht.
Die umfangreichen Experimente auf CUHK-SYSU und PRW zeigen, dass PSDiff den Stand der Technik übertrifft und gleichzeitig eine geringere Parameterkomplexität und einen elastischeren Rechenaufwand aufweist.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Chengyou Jia... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2309.11125.pdfYêu cầu sâu hơn