BRAVE konsolidiert effizient visuelle Merkmale aus mehreren eingefrorenen Codierern in eine vielseitigere und kompaktere Darstellung, die direkt als Eingabe für ein eingefrorenes Sprachmodell verwendet werden kann. Dies führt zu Spitzenleistungen bei einer Vielzahl von Bildunterschriften- und Visuellen-Frage-Antwort-Aufgaben und verbessert die Robustheit gegenüber visuellen Halluzinationen und Eingaben außerhalb der Verteilung erheblich.
Durch den Einsatz feingranularer KI-Rückmeldung können große Sprach-Bild-Modelle effektiv an die Ausrichtung von Text- und Bildmodalitäten angepasst werden, um Halluzinationen in den generierten Antworten zu reduzieren.
Wir stellen einen neuartigen, einfachen und effektiven Ansatz zum Maskieren von Bildpatches während des Vortrainings eines Sprach-Bild-Modells vor. Unser Ansatz, genannt Gaussian Masking for Language-Image Pre-Training (GLIP), ersetzt das zufällige Maskieren durch ein zentriertes Maskieren, das auf einer Gaußverteilung basiert und von der Bedeutung der Bildpatches im Zentrum des Bildes inspiriert ist. GLIP behält die gleichen Einsparungen bei Rechenressourcen wie der bestehende Ansatz FLIP, verbessert aber die Leistung über eine Reihe von nachgelagerten Datensätzen und Aufgaben hinweg.
DRESS, ein großes Sprach-Bild-Modell, nutzt natürliches Sprachfeedback, um seine Ausrichtung an menschlichen Präferenzen und seine Interaktionsfähigkeiten zu verbessern.