Durch die Verwendung von Vision-Sprach-Modellen als Belohnungsmodelle kann ein Bildunterschriften-Modell (BLIP2) verbessert werden, um detailliertere und umfassendere Beschreibungen zu generieren.
Die Studie untersucht die Objekthalluzination in detaillierten Bildunterschriften von großen multimodalen Modellen und führt einen neuartigen Kontrollmechanismus ein, um die Halluzination zu reduzieren.
Die Grundmodelle wie CLIP ermöglichen Zero-Shot-Transfer auf verschiedene Aufgaben ohne zusätzliche Trainingsdaten. Die Zero-Shot-Leistung ist jedoch weniger wettbewerbsfähig als eine vollständig überwachte. Daher werden auch Feinabstimmung und Ensembling häufig eingesetzt, um die Leistung auf nachgelagerten Aufgaben zu verbessern. Wir argumentieren jedoch, dass solche vorherigen Arbeiten die inhärenten Verzerrungen in Grundmodellen übersehen haben. Aufgrund des stark unausgewogenen Web-Scale-Trainingssatzes sind Grundmodelle unvermeidlich in Richtung häufiger Semantik verzerrt, und daher ist auch die anschließende Feinabstimmung oder das Ensembling noch verzerrt. In dieser Studie untersuchen wir systematisch die Verzerrungen in Grundmodellen und demonstrieren die Wirksamkeit unserer vorgeschlagenen Methode der Generalisierten Logit-Anpassung (GLA). GLA bietet zwei alternative Methoden zum Debiasing: Die erste ist eine optimierungsbasierte Schätzung des Bias, die auf dem Bayes'schen Optimalkriterium aufbaut, und die zweite identifiziert den Etikettenbias durch einen Eigenvektor, der aus einer Matrix von Zero-Shot-Vorhersagen abgeleitet wird. Da unser Ansatz einen grundlegenden Mangel im Pre-Training behebt, zeigt die vorgeschlagene GLA signifikante Verbesserungen über eine Vielzahl von Aufgaben hinweg: Sie erzielt 1,5 Prozentpunkte Genauigkeitsgewinn auf ImageNet, einen großen durchschnittlichen Verbesserung (1,9-4,4 Prozentpunkte) auf 11 Few-Shot-Datensätzen und 2,4 Prozentpunkte Gewinn auf der Klassifikation mit langer Schwanzverteilung.
Ein einfacher, aber neuartiger Ansatz, bei dem nur ein einziges Vision Language Model (VLM) verwendet wird, kann die bestehenden Methoden in neun von zehn Benchmarks übertreffen.
Eine neuartige und effektive Methode zum Injizieren von Backdoors in CLIP-Modelle, die sowohl den Bild- als auch den Textencoder beeinflusst, indem ein lernbarer Trigger auf Bilder angewendet und ein triggerbasierter Kontextgenerator verwendet wird, um leistungsfähige und generalisierbare Angriffe zu ermöglichen.
Durch die Zerlegung von Bildern in unabhängige visuelle Konzepte (Subjekt, Objekt, Prädikat) und die Verwendung dieser Konzepte zur dynamischen Gewichtung der Ähnlichkeitsberechnung zwischen Bild und Text kann die Leistung von CLIP-ähnlichen Modellen bei der kompositionellen Bild-Text-Zuordnung verbessert werden.
Durch das Aufbrechen von Bildern in unabhängige Komponenten (Subjekt, Objekt, Prädikat) und die Verwendung dieser Komponenten zur Verbesserung der Bild-Text-Zuordnung kann die Leistung von CLIP-ähnlichen Modellen gesteigert werden.
Durch das Aufbrechen von Bildern in unabhängige visuelle Konzepte (Subjekt, Objekt, Prädikat) und die Verwendung dieser Konzepte zur dynamischen Gewichtung der Ähnlichkeitsberechnung zwischen Bild und Text kann die Leistung von CLIP-ähnlichen Modellen bei der kompositionellen Bild-Text-Zuordnung deutlich verbessert werden.
Durch eine eingehende Analyse der erlernten Merkmale von Basis- und Neuen Aufgaben stellen wir fest, dass der Basis-Neu-Zielkonflikt auf ein Kanalverzerrungsproblem zurückzuführen ist - der Großteil der Merkmalskanäle ist von basisspezifischem Wissen belegt, was zum Zusammenbruch des aufgabenübergreifenden Wissens führt, das für neue Aufgaben wichtig ist. Um dies anzugehen, schlagen wir den Decoupled Prompt Tuning (DePT)-Rahmen vor, der basisspezifisches Wissen während des Prompt-Tunings von Merkmalskanälen in einen isolierten Merkmalsraum entkoppelt, um das aufgabenübergreifende Wissen im ursprünglichen Merkmalsraum maximal zu erhalten und so eine bessere Null-Schuss-Generalisierung auf neue Aufgaben zu erreichen.
Der TINA-Rahmen ermöglicht es Agenten, visuelle Informationen genau zu untersuchen und eigenständig wichtige Hinweise in der Umgebung abzufragen, wodurch ihre Wahrnehmungsfähigkeiten verbessert werden. Dieser Ansatz übertrifft bestehende nullbasierte Navigationsmodelle und einige überwachte lernbasierte Methoden, ohne zusätzliches Training zu erfordern.