Die Studie untersucht die Auswirkungen gängiger Feinabstimmungstechniken auf die Leistung von vortrainierten text-bild-encodern wie CLIP. Es wird gezeigt, dass herkömmliche Feinabstimmungsmethoden nicht nur die Darstellungen, die für die Generalisierung zu kovarianzversetzten out-of-distribution-Proben (OOD-Generalisierung) erforderlich sind, verzerren, sondern auch die Darstellungen, die für die Erkennung semantisch verschobener OOD-Proben (OOD-Erkennung) erforderlich sind.
Um diese Herausforderungen anzugehen, wird eine neue Modellreprogrammierungsmethode namens REPROGRAMMER vorgestellt. REPROGRAMMER zielt darauf ab, die ganzheitliche Leistung des nachgelagerten Modells über ID-, OOD-Generalisierungs- und OOD-Erkennungsaufgaben hinweg zu verbessern. Die empirischen Ergebnisse zeigen, dass REPROGRAMMER weniger invasiv ist und überlegene nachgelagerte Modelle liefert. Darüber hinaus wird gezeigt, dass durch das Anfügen einer zusätzlichen Darstellungsresidualverbindung an REPROGRAMMER die Vortrainingsdarstellungen noch besser erhalten werden können, was zu einem noch sichereren und robusteren nachgelagerten Modell führt, das in vielen ID-Klassifizierungs-, OOD-Generalisierungs- und OOD-Erkennungseinstellungen hervorragend abschneidet.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Andrew Geng,... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10800.pdfDomande più approfondite