Die Studie untersucht empirisch, wie sich die verfügbare Datengröße und die Größe der feinabzustimmenden Parameter auf die Leistung verschiedener parametereffizienteren Feinabstimmungsmethoden (PEFTs) auswirken.
Für zwei Downstream-Aufgaben im Bereich Vision und Sprache (VL) - Bildunterschrift und Bildfragestellung - werden fünf PEFT-Methoden evaluiert: Prompt-Tuning, Prefix-Tuning, LoRA, serielle Adapter-Tuning und parallele Adapter-Tuning.
Die Ergebnisse zeigen, dass die Leistung der PEFTs nur dann positiv mit der Datengröße und der Größe der feinabzustimmenden Parameter korreliert, wenn die Downstream-Aufgabe und -Daten nicht konsistent mit der Vortrainung sind. Bei konsistenter Downstream-Aufgabe beeinflusst die Datengröße die Leistung nicht mehr, während der Einfluss der Größe der feinabzustimmenden Parameter nicht monoton ist.
Diese Beobachtungen könnten die Wahl der Trainingsstrategie für verschiedene PEFTs leiten. Darüber hinaus zeigen die Ergebnisse, dass Methoden mit Schichtkomposition (z.B. LoRA) in Bezug auf Trainingseffizienz und Leistung möglicherweise besser für die Downstream-Anpassung von VL-Vortrainingsmodellen geeignet sind.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Yuxin Tian,M... ที่ arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08433.pdfสอบถามเพิ่มเติม