Die Studie untersucht, wie die Nullstellen-Klassifizierungsleistung von Visionssprache-Modellen (VLMs) wie CLIP durch die Verwendung von Textbeschreibungen, die von großen Sprachmodellen (LLMs) generiert wurden, und die Anpassung der VLMs an diese Beschreibungen verbessert werden kann.
Die Autoren entwickeln Methoden, um VLMs mit dieser "Beutel-Ebenen"-Bild-Text-Supervision zu trainieren. Sie stellen fest, dass die einfache Verwendung dieser Attribute bei der Testzeit die Leistung nicht verbessert, aber ihre Trainingsstrategie zu einer durchschnittlichen Verbesserung von 4-5% in der Nullstellen-Klassifizierungsgenauigkeit für neue Kategorien von Vögeln und Blumen führt. Ähnliche Verbesserungen werden in Domänen beobachtet, in denen ein Teil der Kategorien zur Feinabstimmung des Modells verwendet wurde.
Durch das Abfragen von LLMs auf verschiedene Arten generieren die Autoren Beschreibungen, die das visuelle Erscheinungsbild, den Lebensraum und die geografischen Regionen erfassen, und kombinieren sie mit vorhandenen Attributen wie der taxonomischen Struktur der Kategorien. Sie bewerten systematisch ihre Fähigkeit, die Nullstellen-Kategorisierung in natürlichen Domänen zu verbessern. Ihre Ergebnisse deuten darauf hin, dass geografische Priors ebenso effektiv sind und ergänzend zu visuellen Erscheinungsmerkmalen wirken. Ihr Verfahren übertrifft auch frühere Arbeiten zum Prompt-basierten Feinabstimmen von VLMs.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Oindrila Sah... : arxiv.org 04-05-2024
https://arxiv.org/pdf/2401.02460.pdfDaha Derin Sorular