核心概念
Durch die Einführung eines neuartigen Dual-Pfad-Ansatzes, der sowohl positive als auch negative Perspektiven berücksichtigt, kann die Leistung von Vision-Sprache-Modellen in Downstream-Aufgaben effizient verbessert werden.
要約
Der Artikel stellt einen innovativen Dual-Pfad-Adapter-Ansatz (DualAdapter) vor, um Vision-Sprache-Modelle wie CLIP effizient an spezifische Downstream-Aufgaben anzupassen.
Der Kern der Idee ist es, nicht nur zu lernen, was ein Bild ist, sondern auch, was es nicht ist. Dazu werden vier Adapter entwickelt: Zwei positive Adapter, die die Fähigkeit des Modells verbessern, die wahre Klasse eines Eingabebilds genau zu identifizieren, und zwei negative Adapter, die das Modell befähigen, falsche Kandidatenklassen effektiv auszuschließen.
Darüber hinaus wird ein unüberwachtes Ähnlichkeitsbasiertes Verfahren zur Verfeinerung der Etiketten eingeführt, um den Einfluss von Ausreißern oder weniger repräsentativen Samples in der Few-Shot-Anpassung zu reduzieren.
Die umfangreichen Experimente auf 15 verschiedenen Datensätzen zeigen, dass der DualAdapter die Leistung in Few-Shot-Lernaufgaben und Domänengeneralisierung im Vergleich zu anderen State-of-the-Art-Methoden deutlich verbessert, während er gleichzeitig eine wettbewerbsfähige Effizienz aufweist.
統計
Die Ähnlichkeit zwischen dem Eingabebild und den positiven Textmerkmalen ist in der Regel höher als die Ähnlichkeit zu den negativen Textmerkmalen.
Die Ähnlichkeit zwischen dem Eingabebild und den negativen Bildmerkmalen liegt zwischen der Ähnlichkeit zu den positiven Bildern der gleichen und der anderen Klassen.
引用
"Wir nicht nur lernen, was ein Bild ist, sondern auch, was es nicht ist."
"Unser DualAdapter führt nicht nur positive Selektion, sondern auch negative Exklusion über die gesamte Menge der Zielklassen durch."