Die Studie untersucht die Auswirkungen gängiger Feinabstimmungstechniken auf die Leistung von vortrainierten text-bild-encodern wie CLIP. Es wird gezeigt, dass herkömmliche Feinabstimmungsmethoden nicht nur die Darstellungen, die für die Generalisierung zu kovarianzversetzten out-of-distribution-Proben (OOD-Generalisierung) erforderlich sind, verzerren, sondern auch die Darstellungen, die für die Erkennung semantisch verschobener OOD-Proben (OOD-Erkennung) erforderlich sind.
Um diese Herausforderungen anzugehen, wird eine neue Modellreprogrammierungsmethode namens REPROGRAMMER vorgestellt. REPROGRAMMER zielt darauf ab, die ganzheitliche Leistung des nachgelagerten Modells über ID-, OOD-Generalisierungs- und OOD-Erkennungsaufgaben hinweg zu verbessern. Die empirischen Ergebnisse zeigen, dass REPROGRAMMER weniger invasiv ist und überlegene nachgelagerte Modelle liefert. Darüber hinaus wird gezeigt, dass durch das Anfügen einer zusätzlichen Darstellungsresidualverbindung an REPROGRAMMER die Vortrainingsdarstellungen noch besser erhalten werden können, was zu einem noch sichereren und robusteren nachgelagerten Modell führt, das in vielen ID-Klassifizierungs-, OOD-Generalisierungs- und OOD-Erkennungseinstellungen hervorragend abschneidet.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Andrew Geng,... às arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10800.pdfPerguntas Mais Profundas