Der Artikel stellt eine neue Aufgabe namens "Composed Person Retrieval" (CPR) vor, bei der sowohl visuelle als auch textuelle Informationen für die Suche nach einer bestimmten Person verwendet werden. Da die Erstellung eines annotierten Datensatzes für diese Aufgabe sehr aufwendig ist, wird eine neue Aufgabe namens "Zero-Shot Composed Person Retrieval" (ZS-CPR) eingeführt, bei der vorhandene Bild-Text-Datensätze genutzt werden, um ein Modell ohne teure Annotationen zu trainieren.
Dafür wird ein zweistufiges Framework namens Word4Per vorgestellt. In der ersten Phase wird das CLIP-Netzwerk fein abgestimmt, um visuelle und textuelle Merkmale gut aufeinander abzustimmen. In der zweiten Phase wird ein leichtgewichtiges "Textual Inversion Network" (TINet) trainiert, um Bildinformationen in Pseudo-Wörter umzuwandeln, die dann mit relativen Bildunterschriften kombiniert werden können, um die Personensuche durchzuführen.
Außerdem wird ein neuer Benchmark-Datensatz namens ITCPR erstellt, um die Leistung des Word4Per-Frameworks zu bewerten. Umfangreiche Experimente zeigen, dass Word4Per die Vergleichsmethoden um mehr als 10% übertrifft.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Delong Liu,H... : arxiv.org 03-26-2024
https://arxiv.org/pdf/2311.16515.pdfDaha Derin Sorular