Der Artikel untersucht die Herausforderungen beim kontinuierlichen Training von großen Vision-Sprache-Modellen wie CLIP. Dafür werden neue Benchmark-Datensätze mit Zeitstempeln eingeführt, um die Leistung von Modellen auf sich zeitlich verändernden Daten zu messen.
Die Analyse zeigt, dass etablierte CLIP-Modelle, die auf Daten bis 2020 trainiert wurden, deutlich an Leistung auf Daten ab 2021 verlieren, während neuere Modelle die Leistung besser halten können. Dies unterstreicht die Notwendigkeit, Modelle kontinuierlich an neue Daten anzupassen.
Es werden verschiedene Methoden zum kontinuierlichen Training untersucht, die auf dem letzten Modellzustand aufbauen und alte Daten wiederverwenden. Der einfache Ansatz, bei dem alle alten Daten repliziert werden, erreicht eine Leistung nahe an einem aufwendigen Neutraining von Grund auf, bei jedoch nur einem Bruchteil des Rechenaufwands (2,5x bis 4x effizienter). Andere Methoden, die den Replay-Puffer reduzieren, zeigen ebenfalls gute Ergebnisse bei deutlich geringerem Speicherbedarf.
Die Ergebnisse zeigen, dass kontinuierliches Lernen von großen Grundlagenmodellen möglich ist, ohne die Leistung stark zu beeinträchtigen, und dabei den Rechenaufwand deutlich reduziert.
To Another Language
from source content
arxiv.org
Głębsze pytania