Die Studie untersucht die interne Struktur der CLIP-Bilddarstellung, indem sie diese in einzelne Komponenten zerlegt und diese mit Textbeschreibungen in Verbindung bringt.
Zunächst wird gezeigt, dass die letzten vier Aufmerksamkeitsschichten den Großteil der direkten Auswirkungen auf die Bilddarstellung haben. Anschließend wird ein Algorithmus (TEXTSPAN) vorgestellt, der für jeden Aufmerksamheitskopf eine Basis von Textbeschreibungen findet, die dessen Ausgabe am besten erklären. Dies offenbart, dass viele Köpfe spezifische Bildmerkmale wie Form, Farbe oder Textur erfassen.
Die Zerlegung der Bilddarstellung in einzelne Bildpositionen ermöglicht es, die Regionen zu identifizieren, die für eine bestimmte Textbeschreibung am relevantesten sind. Dies führt zu einem leistungsfähigen nullsichtigen Bildsegmentierer, der bestehende Methoden übertrifft.
Schließlich wird die Zerlegung in Köpfe und Bildpositionen kombiniert, um die Informationsflüsse vom Eingangsbild zur Textbeschreibung detailliert zu visualisieren. Die Ergebnisse zeigen, dass die gefundenen Textbeschreibungen die visuellen Eigenschaften, die von den jeweiligen Modellkomponenten erfasst werden, gut widerspiegeln.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Yossi Gandel... ที่ arxiv.org 04-01-2024
https://arxiv.org/pdf/2310.05916.pdfสอบถามเพิ่มเติม