Wie CLIP Konzepte darstellt: Verstehen der Repräsentationen von Vision-Language-Modellen durch ihre bevorzugten Konzeptbeschreibungen
Vision-Language-Modelle (VLMs) stützen sich signifikant auf irrelevante oder nicht-visuelle Beschreibungen, um visuelle Konzepte darzustellen, anstatt sich auf visuelle Attribute zu konzentrieren.