Der Artikel untersucht, wie Vision-Sprache-Modelle (VLMs) wie CLIP effizient an neue Zielaufgaben angepasst werden können. Obwohl VLMs beeindruckende Nullschuss-Leistungen zeigen, erfordert die Verbesserung der Leistung auf neuen Aufgaben oft aufgabenspezifisches Wissen. Um die hohen Kosten für das Beschaffen von Etiketten zu reduzieren, wird aktives Lernen als vielversprechender Ansatz untersucht.
Die Autoren machen zwei Beobachtungen: 1) Eine einfache Anwendung des herkömmlichen aktiven Lernens auf VLMs kann die Leistung sogar verschlechtern, da die Auswahl der zu beschriftenden Proben zu einem Ungleichgewicht zwischen den Klassen führt. 2) Das Vorwissen der VLMs kann Hinweise darauf geben, wie dieses Ungleichgewicht vor dem Beschriften ausgeglichen werden kann.
Basierend auf diesen Erkenntnissen stellen die Autoren einen neuartigen aktiven Lernansatz namens PCB vor, der das Klassenungleichgewicht berücksichtigt und die Leistung bei der Anpassung von VLMs an neue Aufgaben deutlich verbessert. PCB integriert sich nahtlos in herkömmliche aktive Lernverfahren und führt zu einer erheblichen Leistungssteigerung im Vergleich zu zufälliger Auswahl und herkömmlichen aktiven Lernmethoden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jihwan Bang,... at arxiv.org 03-22-2024
https://arxiv.org/pdf/2311.11178.pdfDeeper Inquiries