Das Papier untersucht die Auswirkungen von unüberwachtem Pretraining auf die Verallgemeinerung von Modellen. Es stellt fest, dass die Verallgemeinerung von der Übertragbarkeit der Repräsentation, der durch die Repräsentation induzierten Rademacher-Komplexität, der Aufgabenheterogenität und der Verallgemeinerung der Pretraining-Aufgabe abhängt. Zwei Szenarien, Context Encoder und Masked Autoencoder Pretraining, werden analysiert. Eine neue Rademacher-Repräsentationsregularisierung wird vorgeschlagen und experimentell validiert.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Yuyang Deng,... ב- arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.06871.pdfשאלות מעמיקות