Messung und Verbesserung der Folgerichtigkeit des Denkens in Vision-Sprache-Modellen
Vision-Sprache-Modelle (VLMs) zeigen Schwächen bei der konsistenten visuellen Schlussfolgerung, die durch eine neue Benchmark-Datensatz-Erstellung und ein zweistufiges Trainingsverfahren verbessert werden können.