Core Concepts
Große generative Vision-Sprache-Modelle zeigen eine Neigung zur syntaktischen Korrektheit, anstatt die visuelle und sprachliche Semantik ganzheitlich zu erfassen.
Abstract
Die Studie untersucht die Kompositionsfähigkeit großer generativer Vision-Sprache-Modelle (GVLMs) und identifiziert eine syntaktische Verzerrung in den derzeitigen Benchmarks.
Zunächst wird festgestellt, dass die gängige Evaluationsmetrik VisualGPTScore, die die Wahrscheinlichkeit der Generierung von Referenzsätzen misst, eher die syntaktische Korrektheit als die inhaltliche Relevanz bewertet. GVLMs können die syntaktisch korrekten, aber inhaltlich irrelevanten Referenzen oft besser einschätzen als EVLMs (Encoder-basierte Vision-Sprache-Modelle), die stärker auf die visuelle Semantik achten.
Um diese Verzerrung zu quantifizieren, wird der SyntaxBias-Score eingeführt, der die Diskrepanz zwischen den Generierungswahrscheinlichkeiten positiver und negativer Referenzen misst. Basierend darauf wird der neue SADE-Benchmark (SyntActically DE-biased) entwickelt, der die syntaktische Verzerrung in bestehenden Benchmarks reduziert und eine neue Herausforderung zur Bewertung des visuellen Inhaltsverständnisses hinzufügt.
Die Evaluationsergebnisse verschiedener GVLMs auf SADE zeigen, dass die Modelle zwar syntaktisch korrekte Sätze präferieren, aber in Bezug auf das visuelle Inhaltsverständnis noch Verbesserungspotenzial haben. Der SADE-Benchmark bietet eine fairere und umfassendere Bewertung der Kompositionsfähigkeit von GVLMs.
Stats
Die Generierungswahrscheinlichkeit von GVLMs für syntaktisch korrekte, aber inhaltlich irrelevante Referenzen ist oft höher als für relevante Referenzen.
Der SyntaxBias-Score der gängigen Benchmarks wie VL-CheckList, ARO und CREPE liegt meist im positiven Bereich, was auf eine syntaktische Verzerrung hindeutet.
Quotes
"VisualGPTScore manchmal die syntaktische Korrektheit anstelle der inhaltlichen Korrektheit bevorzugt."
"Ein weit verbreiteter syntaktischer Bias ist in den derzeitigen Benchmarks für multimodale Kompositionsanalyse vorhanden."