Основные понятия
Eine neue trainingsfreie Methode für die Null-Schuss-Zusammengesetzte Bildsuche, die ein Reranking-Verfahren auf Basis diskriminativer lokaler Konzepte einbezieht.
Аннотация
Die vorgeschlagene Methode besteht aus zwei Stufen:
- Globale Abrufgrundlinie (GRB):
- Konvertiert die Instruktions-Bild-Abfrage in eine beschreibende Bildunterschrift, um den bestehenden visuell-textuellen Ausrichtungsraum zu nutzen.
- Verwendet einen großen Sprachmodell (LLM), um eine Pseudo-Zielunterschrift zu generieren, die als globale Abrufauskunft dient.
- Führt die Bildsuche durch Ähnlichkeitsberechnung zwischen der Pseudo-Zielunterschrift und den Bildeinbettungen durch.
- Lokales Konzept-Reranking (LCR):
- Identifiziert die lokalen Konzepte, die im Zielbildmuss vorhanden sein, durch Parsing des modifizierten Texts mit einem LLM.
- Bestimmt die Existenz dieser lokalen Konzepte in den Zielbildern mithilfe eines multimodalen Modells (LLaVA) und berechnet daraus einen lokalen Punktwert.
- Kombiniert den globalen Punktwert aus GRB und den lokalen Punktwert, um die endgültige Rangliste zu erstellen.
Die vorgeschlagene Methode erzielt vergleichbare Leistungen wie bestehende trainingsbasierte Null-Schuss-Zusammengesetzte Bildsuche-Methoden, übertrifft aber signifikant alle anderen trainingsfreien Methoden.
Статистика
Die Pseudo-Zielunterschrift wird durch einen Prompt an ein großes Sprachmodell (LLM) wie GPT4 generiert.
Die lokalen Konzepte werden durch einen Prompt an ein LLM wie GPT4 extrahiert.
Die Existenz der lokalen Konzepte in den Zielbildern wird durch das multimodale Modell LLaVA berechnet.
Цитаты
"Eine neue trainingsfreie Methode für die Null-Schuss-Zusammengesetzte Bildsuche, die ein Reranking-Verfahren auf Basis diskriminativer lokaler Konzepte einbezieht."
"Die vorgeschlagene Methode erzielt vergleichbare Leistungen wie bestehende trainingsbasierte Null-Schuss-Zusammengesetzte Bildsuche-Methoden, übertrifft aber signifikant alle anderen trainingsfreien Methoden."