Conceptos Básicos
Kontextbasierte Feinabstimmungsmethoden wie Prompting, In-Context-Learning, Soft Prompting und Prefix-Tuning sind zwar empirisch erfolgreich, haben aber strukturelle Einschränkungen. Sie können die relativen Aufmerksamkeitsmuster nicht ändern und können die Ausgabe einer Aufmerksamkeitsschicht nur in eine feste Richtung beeinflussen, im Gegensatz zur vollständigen Feinabstimmung.
Resumen
Die Studie untersucht die theoretischen Grundlagen und Grenzen von kontextbasierten Feinabstimmungsmethoden wie Prompting, In-Context-Learning, Soft Prompting und Prefix-Tuning.
Zunächst wird gezeigt, dass der kontinuierliche Einbettungsraum ausdrucksstärker ist als der diskrete Tokenraum und dass ein Transformer die zusätzliche Kapazität tatsächlich nutzen kann. Allerdings haben Prefix-Tuning und ähnliche Methoden strukturelle Einschränkungen:
- Sie können die relativen Aufmerksamkeitsmuster über den Inhalt nicht ändern und können die Ausgabe einer Aufmerksamkeitsschicht nur in eine feste Richtung beeinflussen.
- Im Gegensatz dazu kann eine vollständige Feinabstimmung neue Aufmerksamkeitsmuster lernen und die Ausgabe der Aufmerksamkeitsschicht beliebig modifizieren, was sie ausdrucksstärker macht.
Obwohl Prefix-Tuning also theoretisch eine große Kapazität hat, zeigt die Studie, dass es in der Praxis an strukturellen Grenzen stößt. Die Autoren erklären, warum Prefix-Tuning dennoch oft gute empirische Ergebnisse erzielt:
- Prefix-Tuning kann vorhandene Fähigkeiten des vortrainierten Modells abrufen oder kombinieren, um ähnliche Aufgaben zu lösen.
- Es kann jedoch möglicherweise keine völlig neuen Aufgaben lernen, die neue Aufmerksamkeitsmuster erfordern.
Abschließend wird diskutiert, wie sich die Erkenntnisse auf die Interpretierbarkeit von Sprachmodellen, Katastrophales Vergessen und Modellausrichtung auswirken können.
Estadísticas
Die Aufmerksamkeitsmatrix Aij kann durch Prefix-Tuning nicht verändert werden, sondern wird nur skaliert: Aij = Aij(1 - Apt_i0).
Der Ausgabevektor tpt_i der Aufmerksamkeitsschicht ist eine Linearkombination des Ausgabevektors t_i des vortrainierten Modells und eines konstanten Vektors WV s_1.
Citas
"Prefix-Tuning kann nur die Ausgabe einer Aufmerksamkeitsschicht in eine feste Richtung beeinflussen, im Gegensatz zur vollständigen Feinabstimmung, die neue Aufmerksamkeitsmuster lernen und die Ausgabe beliebig modifizieren kann."
"Obwohl Prefix-Tuning theoretisch eine große Kapazität hat, zeigt die Studie, dass es in der Praxis an strukturellen Grenzen stößt."