Core Concepts
Durch die Nutzung des Vorwissens von VLMs kann ein neuartiger aktiver Lernansatz entwickelt werden, der die Leistung bei der Anpassung an neue Aufgaben deutlich verbessert.
Abstract
Der Artikel untersucht, wie Vision-Sprache-Modelle (VLMs) wie CLIP effizient an neue Zielaufgaben angepasst werden können. Obwohl VLMs beeindruckende Nullschuss-Leistungen zeigen, erfordert die Verbesserung der Leistung auf neuen Aufgaben oft aufgabenspezifisches Wissen. Um die hohen Kosten für das Beschaffen von Etiketten zu reduzieren, wird aktives Lernen als vielversprechender Ansatz untersucht.
Die Autoren machen zwei Beobachtungen: 1) Eine einfache Anwendung des herkömmlichen aktiven Lernens auf VLMs kann die Leistung sogar verschlechtern, da die Auswahl der zu beschriftenden Proben zu einem Ungleichgewicht zwischen den Klassen führt. 2) Das Vorwissen der VLMs kann Hinweise darauf geben, wie dieses Ungleichgewicht vor dem Beschriften ausgeglichen werden kann.
Basierend auf diesen Erkenntnissen stellen die Autoren einen neuartigen aktiven Lernansatz namens PCB vor, der das Klassenungleichgewicht berücksichtigt und die Leistung bei der Anpassung von VLMs an neue Aufgaben deutlich verbessert. PCB integriert sich nahtlos in herkömmliche aktive Lernverfahren und führt zu einer erheblichen Leistungssteigerung im Vergleich zu zufälliger Auswahl und herkömmlichen aktiven Lernmethoden.
Stats
Die Varianz der Anzahl der Proben zwischen den Klassen führt zu einer Verschlechterung der Leistung.
Die Genauigkeit kann durch Reduzierung der Varianz deutlich verbessert werden.
Quotes
"Naïvely applying active learning to VLMs does not consistently demonstrate improvements compared to random selection-based labeling."
"This lack of improvement comes from the imbalanced class labels misled by an active learning framework."