Große generative Vision-Sprache-Modelle zeigen eine Neigung zur syntaktischen Korrektheit, anstatt die visuelle und sprachliche Semantik ganzheitlich zu erfassen.