Die Studie untersucht empirisch, wie sich die verfügbare Datengröße und die Größe der feinabzustimmenden Parameter auf die Leistung verschiedener parametereffizienteren Feinabstimmungsmethoden (PEFTs) auswirken.
Für zwei Downstream-Aufgaben im Bereich Vision und Sprache (VL) - Bildunterschrift und Bildfragestellung - werden fünf PEFT-Methoden evaluiert: Prompt-Tuning, Prefix-Tuning, LoRA, serielle Adapter-Tuning und parallele Adapter-Tuning.
Die Ergebnisse zeigen, dass die Leistung der PEFTs nur dann positiv mit der Datengröße und der Größe der feinabzustimmenden Parameter korreliert, wenn die Downstream-Aufgabe und -Daten nicht konsistent mit der Vortrainung sind. Bei konsistenter Downstream-Aufgabe beeinflusst die Datengröße die Leistung nicht mehr, während der Einfluss der Größe der feinabzustimmenden Parameter nicht monoton ist.
Diese Beobachtungen könnten die Wahl der Trainingsstrategie für verschiedene PEFTs leiten. Darüber hinaus zeigen die Ergebnisse, dass Methoden mit Schichtkomposition (z.B. LoRA) in Bezug auf Trainingseffizienz und Leistung möglicherweise besser für die Downstream-Anpassung von VL-Vortrainingsmodellen geeignet sind.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Yuxin Tian,M... pada arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08433.pdfPertanyaan yang Lebih Dalam