Die Studie untersucht die Erweiterung der visuellen Codierungsfähigkeiten von Sprach-Bild-Modellen (VLMs). Zunächst wird eine umfassende Bewertung mehrerer Bildcodierer mit unterschiedlichen induktiven Verzerrungen für die Lösung von VLM-Aufgaben durchgeführt. Die Ergebnisse zeigen, dass es keinen einzelnen Codierungsaufbau gibt, der über verschiedene Aufgaben hinweg konsistent die beste Leistung erbringt, und dass Codierer mit unterschiedlichen Verzerrungen überraschend ähnlich abschneiden können.
Motiviert durch diese Erkenntnisse stellt die Studie eine Methode namens BRAVE vor, die visuelle Merkmale aus mehreren eingefrorenen Codierern in eine vielseitigere Darstellung konsolidiert, die direkt als Eingabe für ein eingefrorenes Sprachmodell verwendet werden kann. BRAVE erzielt Spitzenleistungen bei einer breiten Palette von Bildunterschriften- und Visuellen-Frage-Antwort-Benchmarks und reduziert die genannten Probleme von VLMs erheblich, bei gleichzeitig geringerer Anzahl an trainierbare Parametern als bestehende Methoden und kompakterer Darstellung.
Die Ergebnisse heben das Potenzial der Einbeziehung verschiedener visueller Verzerrungen für ein breiteres und kontextualisierteres visuelles Verständnis von VLMs hervor.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Oğuz... kl. arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07204.pdfDybere Forespørgsler