المفاهيم الأساسية
BRAVE konsolidiert effizient visuelle Merkmale aus mehreren eingefrorenen Codierern in eine vielseitigere und kompaktere Darstellung, die direkt als Eingabe für ein eingefrorenes Sprachmodell verwendet werden kann. Dies führt zu Spitzenleistungen bei einer Vielzahl von Bildunterschriften- und Visuellen-Frage-Antwort-Aufgaben und verbessert die Robustheit gegenüber visuellen Halluzinationen und Eingaben außerhalb der Verteilung erheblich.
الملخص
Die Studie untersucht die Erweiterung der visuellen Codierungsfähigkeiten von Sprach-Bild-Modellen (VLMs). Zunächst wird eine umfassende Bewertung mehrerer Bildcodierer mit unterschiedlichen induktiven Verzerrungen für die Lösung von VLM-Aufgaben durchgeführt. Die Ergebnisse zeigen, dass es keinen einzelnen Codierungsaufbau gibt, der über verschiedene Aufgaben hinweg konsistent die beste Leistung erbringt, und dass Codierer mit unterschiedlichen Verzerrungen überraschend ähnlich abschneiden können.
Motiviert durch diese Erkenntnisse stellt die Studie eine Methode namens BRAVE vor, die visuelle Merkmale aus mehreren eingefrorenen Codierern in eine vielseitigere Darstellung konsolidiert, die direkt als Eingabe für ein eingefrorenes Sprachmodell verwendet werden kann. BRAVE erzielt Spitzenleistungen bei einer breiten Palette von Bildunterschriften- und Visuellen-Frage-Antwort-Benchmarks und reduziert die genannten Probleme von VLMs erheblich, bei gleichzeitig geringerer Anzahl an trainierbare Parametern als bestehende Methoden und kompakterer Darstellung.
Die Ergebnisse heben das Potenzial der Einbeziehung verschiedener visueller Verzerrungen für ein breiteres und kontextualisierteres visuelles Verständnis von VLMs hervor.
الإحصائيات
Die Studie zeigt, dass es keinen einzelnen Bildcodierer gibt, der über verschiedene Aufgaben hinweg konsistent die beste Leistung erbringt.
Codierer mit unterschiedlichen Verzerrungen können überraschend ähnlich abschneiden.
BRAVE erzielt Spitzenleistungen bei einer breiten Palette von Bildunterschriften- und Visuellen-Frage-Antwort-Benchmarks.
BRAVE reduziert die Probleme von VLMs wie visuelle Halluzinationen und Eingaben außerhalb der Verteilung erheblich.
BRAVE verwendet eine geringere Anzahl an trainierbare Parametern als bestehende Methoden.
اقتباسات
"BRAVE konsolidiert effizient visuelle Merkmale aus mehreren eingefrorenen Codierern in eine vielseitigere und kompaktere Darstellung, die direkt als Eingabe für ein eingefrorenes Sprachmodell verwendet werden kann."
"Die Ergebnisse heben das Potenzial der Einbeziehung verschiedener visueller Verzerrungen für ein breiteres und kontextualisierteres visuelles Verständnis von VLMs hervor."