Kontinuierliches Training von großen Grundlagenmodellen wie CLIP ist entscheidend, um mit der ständigen Weiterentwicklung von Daten Schritt zu halten. Einfache Ansätze, die auf dem letzten Modellzustand aufbauen und alte Daten wiederverwenden, können die Leistung nahezu auf dem Niveau eines aufwendigen Neutrainings von Grund auf halten, bei deutlich geringerem Rechenaufwand.
Durch die Ausrichtung von Vision-Sprache-Modellen auf primitive visuelle Attribute anstelle von Klassennamen können die korrekten Begründungen für Entscheidungen erfasst und die Übertragbarkeit auf neue Klassen oder Verteilungen verbessert werden.
Die Leistung verschiedener parametereffizienteren Feinabstimmungsmethoden hängt davon ab, ob die Zielaufgabe und -daten konsistent mit der Vortrainingsaufgabe sind. Bei konsistenter Zielaufgabe beeinflusst die Datengröße die Leistung nicht, während der Einfluss der Größe der feinabzustimmenden Parameter nicht monoton ist.
Eine effiziente Methode zur Kalibrierung der Merkmalsdarstellung von CLIP-Modellen, um deren Gruppenrobustheit ohne Verwendung von Gruppenlabels zu verbessern.