Vision-Sprache-Modelle können ihre semantische Verankerung durch Rückmeldungen verbessern, ohne dass zusätzliche domänenspezifische Trainingsdaten, Feinabstimmung oder Änderungen an den Netzwerkarchitekturen erforderlich sind.
Unser Ziel ist es, ein Vision-Language-Modell ohne Beeinträchtigung seiner Out-of-Distribution-Generalisierung feinzustimmen. Wir verwenden zwei Arten von Ankern, um den Feinabstimmungsprozess zu regulieren und die ursprüngliche Merkmalsstruktur des Modells beizubehalten.
Durch die Nutzung des Vorwissens von VLMs kann ein neuartiger aktiver Lernansatz entwickelt werden, der die Leistung bei der Anpassung an neue Aufgaben deutlich verbessert.
RESSA nutzt Cross-Modality-Feinabstimmung und SparseLoRA, um die Leistung von geprünten Vision-Sprache-Modellen signifikant zu verbessern.
Durch eine umfangreiche Transferlernanalyse werden sechs interpretierbare Faktoren und Verzerrungen identifiziert, die die Leistung von Vision-Sprache-Modellen auf verschiedenen Tests beeinflussen.
Iteratives Lernen kann die Kompositionsstruktur in großen Vision-Sprache-Modellen verbessern, indem es Darstellungen erzeugt, die leicht zu lernen sind.
Große generative Vision-Sprache-Modelle zeigen eine Neigung zur syntaktischen Korrektheit, anstatt die visuelle und sprachliche Semantik ganzheitlich zu erfassen.
Dieser Artikel führt eine neuartige und bedeutende Herausforderung für Vision-Sprache-Modelle (VLMs) ein, die als "Erkennung unlösbarer Probleme" (Unsolvable Problem Detection, UPD) bezeichnet wird. UPD untersucht die Fähigkeit von VLMs, Antworten zurückzuhalten, wenn sie mit unlösbaren Problemen in visuellen Frage-Antwort-Aufgaben konfrontiert werden.
Das Kernkonzept dieser Arbeit ist die Entwicklung eines probabilistischen Finetuning-Ansatzes namens CLAP4CLIP, der die Unsicherheiten bei der Anpassung des leistungsfähigen CLIP-Modells an eine Reihe von kontinuierlichen Aufgaben berücksichtigt. CLAP4CLIP nutzt eine visuelle geführte Aufmerksamkeitsmodule und aufgabenspezifische Verteilungskodierer, um die Anpassung an neue Aufgaben zu verbessern und das Vergessen zu reduzieren.
Mini-Gemini ist ein einfacher und effektiver Rahmen, der die Multimodalität von Vision-Sprache-Modellen (VLMs) verbessert. Durch den Einsatz von hochauflösenden visuellen Token, hochwertigeren Daten und VLM-gesteuerter Generierung kann Mini-Gemini die Leistung und den Funktionsumfang aktueller VLMs deutlich steigern.