Die Autoren schlagen ein neues Problem der selbstüberwachten Datensatzkondensation für Transfer-Lernen vor. Anstatt einen großen Datensatz in eine kleine repräsentative Menge zu komprimieren, wie es bisherige überwachte Datensatzkondensationsmethoden tun, komprimieren sie einen ungelabelten Datensatz in eine kleine Menge synthetischer Beispiele, auf denen ein Modell effizient vortrainiert werden kann, bevor es auf Zieldatensätzen fein abgestimmt wird.
Die Autoren beobachten, dass das naive Verwenden von selbstüberwachten Lernzielen in der bilevel-Optimierung für die Datensatzkondensation zu Instabilität führt. Sie beweisen, dass der Gradient der selbstüberwachten Verlustfunktion mit zufälligen Datenaugmentierungen oder Maskierung ein verzerrter Schätzer des wahren Gradienten ist.
Um dies zu beheben, schlagen die Autoren vor, den mittleren quadratischen Fehler (MSE) zwischen den Darstellungen der synthetischen Beispiele und den erlernbaren Zieldarstellungen für das innere Optimierungsziel zu minimieren, da dies keine Zufälligkeit einführt. Für das äußere Optimierungsziel minimieren sie den MSE zwischen den Darstellungen des Modells aus dem inneren Optimierungsschritt und den Darstellungen des selbstüberwachten Zielmodells auf dem ursprünglichen Datensatz.
Schließlich vereinfachen die Autoren das innere Optimierungsproblem, indem sie nur den linearen Kopf mit Kernel-Ridge-Regression optimieren, während der Merkmalsextraktor eingefroren bleibt. Sie nennen ihre Methode "Kernel Ridge Regression on Self-supervised Target" (KRR-ST).
Die Autoren zeigen empirisch, dass ihre Methode die überwachten Datensatzkondensationsmethoden in verschiedenen Anwendungen wie Transfer-Lernen, Architektur-Generalisierung und zielgruppenfreier Wissensübertragung deutlich übertrifft.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Dong Bok Lee... às arxiv.org 04-15-2024
https://arxiv.org/pdf/2310.06511.pdfPerguntas Mais Profundas