Die Studie untersucht die Problematik von Scheinkorrelationen in großen, vortrainierten CLIP-Modellen und präsentiert einen neuartigen Ansatz zur Verbesserung der Gruppenrobustheit ohne Verwendung von Gruppenlabels.
Zunächst wird durch Visualisierungen der Merkmalsdarstellungen von CLIP und CLIP+ERM gezeigt, dass diese Modelle stark von Scheinkorrelationen abhängen. Um dies zu adressieren, wird ein zweistufiger Ansatz namens "Contrastive Feature Recalibration" (CFR) vorgestellt:
Erstellung eines Kalibrierungsdatensatzes: Aus dem Trainingsdatensatz werden Samples ausgewählt, die vom vortrainierten CLIP-Modell falsch klassifiziert werden. Diese Samples dienen als Ankerpunkte für die Kalibrierung.
Merkmalsrekalibrierung: Die Merkmalsdarstellungen der Samples im Kalibrierungsdatensatz werden durch kontrastives Lernen so angepasst, dass sie näher am Klassenzentrum ihrer Klasse liegen und weiter von den Zentren anderer Klassen entfernt sind. Dadurch soll die Gruppenrobustheit des Gesamtmodells verbessert werden.
Umfangreiche Experimente auf verschiedenen Benchmarks zeigen, dass CFR die Gruppenrobustheit deutlich verbessert und die Leistung von CLIP-Modellen ohne Verwendung von Gruppenlabels signifikant steigert. Insbesondere im Vergleich zu anderen semi-überwachten Methoden erzielt CFR state-of-the-art Ergebnisse.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Chenyu You,Y... a las arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07241.pdfConsultas más profundas