Die Studie untersucht empirisch, wie sich die verfügbare Datengröße und die Größe der feinabzustimmenden Parameter auf die Leistung verschiedener parametereffizienteren Feinabstimmungsmethoden (PEFTs) auswirken.
Für zwei Downstream-Aufgaben im Bereich Vision und Sprache (VL) - Bildunterschrift und Bildfragestellung - werden fünf PEFT-Methoden evaluiert: Prompt-Tuning, Prefix-Tuning, LoRA, serielle Adapter-Tuning und parallele Adapter-Tuning.
Die Ergebnisse zeigen, dass die Leistung der PEFTs nur dann positiv mit der Datengröße und der Größe der feinabzustimmenden Parameter korreliert, wenn die Downstream-Aufgabe und -Daten nicht konsistent mit der Vortrainung sind. Bei konsistenter Downstream-Aufgabe beeinflusst die Datengröße die Leistung nicht mehr, während der Einfluss der Größe der feinabzustimmenden Parameter nicht monoton ist.
Diese Beobachtungen könnten die Wahl der Trainingsstrategie für verschiedene PEFTs leiten. Darüber hinaus zeigen die Ergebnisse, dass Methoden mit Schichtkomposition (z.B. LoRA) in Bezug auf Trainingseffizienz und Leistung möglicherweise besser für die Downstream-Anpassung von VL-Vortrainingsmodellen geeignet sind.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Yuxin Tian,M... klokken arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08433.pdfDypere Spørsmål