Die Studie untersucht die Kompositionsfähigkeit großer generativer Vision-Sprache-Modelle (GVLMs) und identifiziert eine syntaktische Verzerrung in den derzeitigen Benchmarks.
Zunächst wird festgestellt, dass die gängige Evaluationsmetrik VisualGPTScore, die die Wahrscheinlichkeit der Generierung von Referenzsätzen misst, eher die syntaktische Korrektheit als die inhaltliche Relevanz bewertet. GVLMs können die syntaktisch korrekten, aber inhaltlich irrelevanten Referenzen oft besser einschätzen als EVLMs (Encoder-basierte Vision-Sprache-Modelle), die stärker auf die visuelle Semantik achten.
Um diese Verzerrung zu quantifizieren, wird der SyntaxBias-Score eingeführt, der die Diskrepanz zwischen den Generierungswahrscheinlichkeiten positiver und negativer Referenzen misst. Basierend darauf wird der neue SADE-Benchmark (SyntActically DE-biased) entwickelt, der die syntaktische Verzerrung in bestehenden Benchmarks reduziert und eine neue Herausforderung zur Bewertung des visuellen Inhaltsverständnisses hinzufügt.
Die Evaluationsergebnisse verschiedener GVLMs auf SADE zeigen, dass die Modelle zwar syntaktisch korrekte Sätze präferieren, aber in Bezug auf das visuelle Inhaltsverständnis noch Verbesserungspotenzial haben. Der SADE-Benchmark bietet eine fairere und umfassendere Bewertung der Kompositionsfähigkeit von GVLMs.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Teli Ma,Rong... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2308.10509.pdfPerguntas Mais Profundas