Основные понятия
Die Bilddarstellung von CLIP kann in textinterpretierbare Komponenten zerlegt werden, die spezifischen Aufmerksamkeitsköpfen und Bildregionen zugeordnet sind. Diese Zerlegung ermöglicht es, die Rolle einzelner Modellkomponenten zu verstehen und für Anwendungen wie die Reduzierung von Scheinkorrelationen und die eigenschaftsspezifische Bildsuche zu nutzen.
Аннотация
Die Studie untersucht die interne Struktur der CLIP-Bilddarstellung, indem sie diese in einzelne Komponenten zerlegt und diese mit Textbeschreibungen in Verbindung bringt.
Zunächst wird gezeigt, dass die letzten vier Aufmerksamkeitsschichten den Großteil der direkten Auswirkungen auf die Bilddarstellung haben. Anschließend wird ein Algorithmus (TEXTSPAN) vorgestellt, der für jeden Aufmerksamheitskopf eine Basis von Textbeschreibungen findet, die dessen Ausgabe am besten erklären. Dies offenbart, dass viele Köpfe spezifische Bildmerkmale wie Form, Farbe oder Textur erfassen.
Die Zerlegung der Bilddarstellung in einzelne Bildpositionen ermöglicht es, die Regionen zu identifizieren, die für eine bestimmte Textbeschreibung am relevantesten sind. Dies führt zu einem leistungsfähigen nullsichtigen Bildsegmentierer, der bestehende Methoden übertrifft.
Schließlich wird die Zerlegung in Köpfe und Bildpositionen kombiniert, um die Informationsflüsse vom Eingangsbild zur Textbeschreibung detailliert zu visualisieren. Die Ergebnisse zeigen, dass die gefundenen Textbeschreibungen die visuellen Eigenschaften, die von den jeweiligen Modellkomponenten erfasst werden, gut widerspiegeln.
Статистика
Die Entfernung aller Aufmerksamkeitsschichten außer den letzten 4 führt nur zu einem geringen Rückgang der nullsichtigen Klassifikationsgenauigkeit.
Durch das Entfernen der Köpfe, die für Standorte zuständig sind, lässt sich die Worst-Group-Genauigkeit auf dem Waterbirds-Datensatz von 48% auf 73% verbessern.
Unser nullsichtiger Bildsegmentierer erreicht auf dem ImageNet-Segmentierungsdatensatz eine Pixelgenauigkeit von 75,21%, eine mittlere IoU von 54,50% und eine mittlere Präzision von 81,61%, was deutlich besser ist als bestehende CLIP-basierte Methoden.
Цитаты
"Die Bilddarstellung von CLIP kann in textinterpretierbare Komponenten zerlegt werden, die spezifischen Aufmerksamkeitsköpfen und Bildregionen zugeordnet sind."
"Viele Köpfe erfassen spezifische Bildmerkmale wie Form, Farbe oder Textur."
"Die Zerlegung der Bilddarstellung in einzelne Bildpositionen ermöglicht es, die Regionen zu identifizieren, die für eine bestimmte Textbeschreibung am relevantesten sind."