Der Artikel stellt einen innovativen Dual-Pfad-Adapter-Ansatz (DualAdapter) vor, um Vision-Sprache-Modelle wie CLIP effizient an spezifische Downstream-Aufgaben anzupassen.
Der Kern der Idee ist es, nicht nur zu lernen, was ein Bild ist, sondern auch, was es nicht ist. Dazu werden vier Adapter entwickelt: Zwei positive Adapter, die die Fähigkeit des Modells verbessern, die wahre Klasse eines Eingabebilds genau zu identifizieren, und zwei negative Adapter, die das Modell befähigen, falsche Kandidatenklassen effektiv auszuschließen.
Darüber hinaus wird ein unüberwachtes Ähnlichkeitsbasiertes Verfahren zur Verfeinerung der Etiketten eingeführt, um den Einfluss von Ausreißern oder weniger repräsentativen Samples in der Few-Shot-Anpassung zu reduzieren.
Die umfangreichen Experimente auf 15 verschiedenen Datensätzen zeigen, dass der DualAdapter die Leistung in Few-Shot-Lernaufgaben und Domänengeneralisierung im Vergleich zu anderen State-of-the-Art-Methoden deutlich verbessert, während er gleichzeitig eine wettbewerbsfähige Effizienz aufweist.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ce Zhang,Sim... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12964.pdfDeeper Inquiries