Core Concepts
Unser Ziel ist es, ein Vision-Language-Modell ohne Beeinträchtigung seiner Out-of-Distribution-Generalisierung feinzustimmen. Wir verwenden zwei Arten von Ankern, um den Feinabstimmungsprozess zu regulieren und die ursprüngliche Merkmalsstruktur des Modells beizubehalten.
Abstract
Die Studie zielt darauf ab, die Out-of-Distribution-Generalisierungsfähigkeiten eines vortrainierten Vision-Language-Modells (wie CLIP) während des Feinabstimmungsprozesses auf Downstream-Aufgaben zu erhalten.
Zunächst wird beobachtet, dass die Out-of-Distribution-Generalisierung, wie Domain-Verschiebung und Zero-Shot-Lernen, nach dem Finetuning stark abnimmt. Dies wird darauf zurückgeführt, dass das Finetuning nur auf Klassenlabels als Zielwerte beschränkt ist, im Gegensatz zum reichhaltigen Textmaterial, das bei der Vorschulung verwendet wurde.
Um dies zu beheben, schlagen die Autoren einen Anchor-basierten robusten Feinabstimmungsansatz (ARF) vor. Dieser verwendet zwei Arten von Ankern:
- Text-kompensierte Anker: Für jedes Bild im Feinabstimmungsdatensatz wird mithilfe eines vortrainierten Bildbeschrifters ein semantisch reichhaltiger Bildtext generiert und als Anker verwendet.
- Bild-Text-Paar-Anker: Aus einem Kandidatendatensatz, der dem Vortrainingsdatensatz von CLIP ähnlich ist, werden relevante Bild-Text-Paare mit reichen Semantiken als zusätzliche Anker abgerufen.
Diese beiden Arten von Ankern dienen als zusätzliche kontrastive Supervision, um den Feinabstimmungsprozess zu regulieren und die ursprüngliche Merkmalsstruktur des CLIP-Modells beizubehalten.
Umfangreiche Experimente zeigen, dass der vorgeschlagene ARF-Ansatz die In-Distribution-Leistung vergleichbar mit herkömmlichen Feinabstimmungsmethoden erreicht, während er neue State-of-the-Art-Ergebnisse bei Domain-Verschiebung und Zero-Shot-Lernen erzielt.
Stats
Die Leistung auf dem In-Distribution-Testdatensatz (ImageNet) ist vergleichbar mit herkömmlichen Feinabstimmungsmethoden.
Die durchschnittliche Genauigkeit auf Domain-Verschiebungs-Benchmarks (ImageNet-Varianten, DomainNet) übertrifft die Baseline-Methoden um 1,9 bis 7,0 Prozentpunkte.
Die durchschnittliche Genauigkeit auf Zero-Shot-Lern-Benchmarks (diverse Datensätze) übertrifft die Baseline-Methoden um 4,6 bis 7,0 Prozentpunkte.
Quotes
"Unser Ziel ist es, ein Vision-Language-Modell ohne Beeinträchtigung seiner Out-of-Distribution-Generalisierung feinzustimmen."
"Wir verwenden zwei Arten von Ankern, um den Feinabstimmungsprozess zu regulieren und die ursprüngliche Merkmalsstruktur des Modells beizubehalten."
"Umfangreiche Experimente zeigen, dass der vorgeschlagene ARF-Ansatz die In-Distribution-Leistung vergleichbar mit herkömmlichen Feinabstimmungsmethoden erreicht, während er neue State-of-the-Art-Ergebnisse bei Domain-Verschiebung und Zero-Shot-Lernen erzielt."