Der Artikel stellt eine neue Aufgabe namens "Composed Person Retrieval" (CPR) vor, bei der sowohl visuelle als auch textuelle Informationen für die Suche nach einer bestimmten Person verwendet werden. Da die Erstellung eines annotierten Datensatzes für diese Aufgabe sehr aufwendig ist, wird eine neue Aufgabe namens "Zero-Shot Composed Person Retrieval" (ZS-CPR) eingeführt, bei der vorhandene Bild-Text-Datensätze genutzt werden, um ein Modell ohne teure Annotationen zu trainieren.
Dafür wird ein zweistufiges Framework namens Word4Per vorgestellt. In der ersten Phase wird das CLIP-Netzwerk fein abgestimmt, um visuelle und textuelle Merkmale gut aufeinander abzustimmen. In der zweiten Phase wird ein leichtgewichtiges "Textual Inversion Network" (TINet) trainiert, um Bildinformationen in Pseudo-Wörter umzuwandeln, die dann mit relativen Bildunterschriften kombiniert werden können, um die Personensuche durchzuführen.
Außerdem wird ein neuer Benchmark-Datensatz namens ITCPR erstellt, um die Leistung des Word4Per-Frameworks zu bewerten. Umfangreiche Experimente zeigen, dass Word4Per die Vergleichsmethoden um mehr als 10% übertrifft.
翻譯成其他語言
從原文內容
arxiv.org
深入探究