核心概念
Vision-Language-Modelle (VLMs) stützen sich signifikant auf irrelevante oder nicht-visuelle Beschreibungen, um visuelle Konzepte darzustellen, anstatt sich auf visuelle Attribute zu konzentrieren.
要約
Die Studie untersucht, welche textuellen Merkmale zur Darstellung von Konzepten in VLMs beitragen. Dafür wird ein neuartiger Analysemethode namens "Extract and Explore" (EX2) vorgestellt:
-
Extraktion: Ein großes Sprachmodell wird mithilfe von Verstärkungslernen an die Präferenzen des VLMs angepasst, um Beschreibungen zu generieren, die die wichtigen Merkmale für das VLM enthalten.
-
Exploration: Die generierten Beschreibungen werden analysiert, um zu verstehen, wie oft VLMs irrelevante oder nicht-visuelle Informationen verwenden, um Konzepte darzustellen, anstatt sich auf visuelle Attribute zu konzentrieren.
Die Ergebnisse zeigen, dass:
- Irrelevante Beschreibungen einen großen Einfluss auf die Konzeptrepräsentationen von VLMs haben, obwohl sie keine hilfreichen Informationen liefern.
- Selbst bei informativen Beschreibungen stützen sich VLMs signifikant auf nicht-visuelle Attribute wie Lebensraum, um visuelle Konzepte darzustellen.
- Verschiedene VLMs priorisieren unterschiedliche Attribute, um ähnliche Konzepte darzustellen, und dasselbe VLM priorisiert unterschiedliche Attribute für verschiedene Datensätze.
統計
"Irrelevante Beschreibungen tragen in 26 von 33 Experimenten erheblich oder sogar fast ausschließlich zu den Verbesserungen bei."
"Selbst bei informativen Beschreibungen stützen sich VLMs in 15 von 19 Fällen signifikant oder sogar dominant auf nicht-visuelle Informationen."
引用
"VLMs stützen sich signifikant auf irrelevante oder nicht-visuelle Beschreibungen, um visuelle Konzepte darzustellen, anstatt sich auf visuelle Attribute zu konzentrieren."
"Verschiedene VLMs priorisieren unterschiedliche Attribute, um ähnliche Konzepte darzustellen, und dasselbe VLM priorisiert unterschiedliche Attribute für verschiedene Datensätze."