Core Concepts
Durch das Hinzufügen visuell verankerter Details zu Fragen können die Leistungen von Sehsprache-Modellen in der nullschuss-Aufgabe verbessert werden, indem Unterbestimmtheit reduziert und die Interaktion zwischen Vision und Sprache besser genutzt wird.
Abstract
Der Artikel präsentiert einen Ansatz namens "Rephrase, Augment and Reason" (REPARE), um die Leistung von Sehsprache-Modellen (LVLMs) in der nullschuss-Fragebearbeitung zu verbessern. REPARE interagiert mit dem zugrunde liegenden LVLM, um relevante visuelle Details aus Bildunterschriften und Begründungen zu extrahieren und diese dann in die ursprüngliche Frage einzubauen. Dadurch werden Fragen weniger unterbestimmt und die Interaktion zwischen Vision und Sprache wird besser genutzt.
REPARE besteht aus zwei Hauptschritten:
Generieren von umformulierten und erweiterten Fragenkandidaten:
Extraktion von Schlüsselentitäten aus der Frage, Generierung von Bildunterschriften und Begründungen durch den LVLM
Fusion dieser visuellen Details in die ursprüngliche Frage, um n Fragenkandidaten zu erzeugen
Auswahl der besten Frage:
Verwendung der Konfidenz des LVLM bei der Beantwortung jedes Fragenkandidaten als unüberwachte Bewertungsfunktion, um den besten Kandidaten auszuwählen
Die Ergebnisse zeigen, dass REPARE die nullschuss-Genauigkeit auf VQAv2 um bis zu 3,85%, auf A-OKVQA um bis zu 6,41% und auf VizWiz um bis zu 7,94% verbessern kann. In einem Orakel-Szenario, in dem die korrekten Antworten bekannt sind, kann REPARE die Genauigkeit sogar um bis zu 14,41% steigern. Die Analyse zeigt, dass die von REPARE generierten Fragen syntaktisch und semantisch komplexer sind, was auf eine Reduzierung der Unterbestimmtheit hindeutet. Außerdem nutzt REPARE die asymmetrischen Stärken des LVLM, indem es die Sprach-Komponente stärker einbindet, ohne die Notwendigkeit des Bildes zu eliminieren.
Stats
Fragen, die von REPARE generiert werden, haben eine durchschnittliche Abhängigkeitsweite von 32,81 auf A-OKVQA und 29,52 auf VQAv2, im Vergleich zu 25,40 und 17,87 für die ursprünglichen Fragen.
Die Ideendichte der von REPARE generierten Fragen beträgt 0,299 auf A-OKVQA und 0,296 auf VQAv2, im Vergleich zu 0,282 und 0,258 für die ursprünglichen Fragen.
Quotes
Keine relevanten Zitate gefunden.