Core Concepts
Durch eine umfangreiche Transferlernanalyse werden sechs interpretierbare Faktoren und Verzerrungen identifiziert, die die Leistung von Vision-Sprache-Modellen auf verschiedenen Tests beeinflussen.
Abstract
Die Studie untersucht die Leistung großer Vision-Sprache-Modelle (VLMs) auf einer Vielzahl von Tests und verwendet Transferlernen sowie Faktoranalyse, um die zugrunde liegenden Fähigkeiten und Verzerrungen zu entdecken.
Schlüsselergebnisse:
- Die Länge der Ausgabe hat einen überraschend starken Einfluss auf die Transferleistung, was darauf hindeutet, dass aktuelle Bewertungsergebnisse von dieser Längenverzerrung beeinflusst sein könnten.
- Die Faktoranalyse kann unerwartet sinnvolle Faktoren identifizieren, die die Modellleistung erklären, wie z.B. das Lesen von Text im Vergleich zu Mehrfachschlussfolgerungen.
- Die Studie führt einen neuen Benchmark, OLIVE, ein, der offene Benutzeranweisungen simuliert und eine Ergänzung zu bestehenden Tests darstellt.
Stats
Die durchschnittliche Ausgabelänge hat einen starken Einfluss auf die Transferleistung.
Generative VQA-Aufgaben leiden unter einer Längenverzerrung, während Multiple-Choice-VQA-Aufgaben weniger davon betroffen sind.
Aufgaben, die das Lesen von Text erfordern, laden stark auf einen anderen Faktor als Aufgaben, die Mehrfachschlussfolgerungen erfordern.
Quotes
"Benefiting from enormous training data, large model sizes, and pretrained large language models, the current generation of vision-language models (VLMs) demonstrate competence in a wide range of tasks."
"We reveal interesting characteristics that have important implications for test suite design. First, generation tasks suffer from a length bias, suggesting benchmarks should balance tasks with varying output lengths."
"We demonstrate that factor analysis successfully identifies reasonable yet surprising VL skill factors, suggesting benchmarks could leverage similar analyses for task selection."