Die Studie untersucht die Auswirkungen gängiger Feinabstimmungstechniken auf die Leistung von vortrainierten text-bild-encodern wie CLIP. Es wird gezeigt, dass herkömmliche Feinabstimmungsmethoden nicht nur die Darstellungen, die für die Generalisierung zu kovarianzversetzten out-of-distribution-Proben (OOD-Generalisierung) erforderlich sind, verzerren, sondern auch die Darstellungen, die für die Erkennung semantisch verschobener OOD-Proben (OOD-Erkennung) erforderlich sind.
Um diese Herausforderungen anzugehen, wird eine neue Modellreprogrammierungsmethode namens REPROGRAMMER vorgestellt. REPROGRAMMER zielt darauf ab, die ganzheitliche Leistung des nachgelagerten Modells über ID-, OOD-Generalisierungs- und OOD-Erkennungsaufgaben hinweg zu verbessern. Die empirischen Ergebnisse zeigen, dass REPROGRAMMER weniger invasiv ist und überlegene nachgelagerte Modelle liefert. Darüber hinaus wird gezeigt, dass durch das Anfügen einer zusätzlichen Darstellungsresidualverbindung an REPROGRAMMER die Vortrainingsdarstellungen noch besser erhalten werden können, was zu einem noch sichereren und robusteren nachgelagerten Modell führt, das in vielen ID-Klassifizierungs-, OOD-Generalisierungs- und OOD-Erkennungseinstellungen hervorragend abschneidet.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Andrew Geng,... klokken arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10800.pdfDypere Spørsmål