Der Artikel untersucht die Fähigkeiten von Vision-Sprache-Modellen (VLMs) zur menschenähnlichen Schlussfolgerung. Um die Konsistenz der Schlussfolgerung von VLMs zu adressieren, wird ein neuer Benchmark-Datensatz namens CURE eingeführt, der Annotationen für Schlussfolgerungsketten enthält.
Der Datensatz wird mit einem semi-automatischen Pipeline-Verfahren unter Verwendung von Großsprachmodellen (LLMs) erstellt. CURE dient zur Messung der Leistung und Konsistenz der Schlussfolgerung von VLMs. Die Evaluation zeigt, dass selbst die besten VLM-Modelle keine starken visuellen Schlussfolgerungsfähigkeiten und -konsistenz aufweisen.
Um die Leistung und Konsistenz der VLMs zu verbessern, wird ein zweistufiges Trainingsverfahren vorgeschlagen. In der ersten Stufe werden VLMs auf Schlussfolgerungsbeispielen trainiert, die von LLMs generierte Schlussfolgerungsketten enthalten. In der zweiten Stufe wird Feedback von LLMs verwendet, um den Schlussfolgerungsprozess zu verbessern. Dieses Verfahren zeigt eine relative Verbesserung von etwa 4% im Vergleich zum Stand der Technik.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы