Entschlüsselung der Bilddarstellung von CLIP durch textbasierte Zerlegung
Die Bilddarstellung von CLIP kann in textinterpretierbare Komponenten zerlegt werden, die spezifischen Aufmerksamkeitsköpfen und Bildregionen zugeordnet sind. Diese Zerlegung ermöglicht es, die Rolle einzelner Modellkomponenten zu verstehen und für Anwendungen wie die Reduzierung von Scheinkorrelationen und die eigenschaftsspezifische Bildsuche zu nutzen.