核心概念
Durch die gezielte Anpassung einzelner Neuronen innerhalb von Großsprachmodellen kann deren Leistung auf spezifischen Aufgaben deutlich verbessert werden, ohne die Gesamtarchitektur stark zu verändern.
要約
In dieser Studie wird ein neuartiger Ansatz zur neuronalen Feinabstimmung von Großsprachmodellen (NeFT) vorgestellt. Anstatt das gesamte Modell feinabzustimmen, konzentriert sich NeFT darauf, nur die für eine bestimmte Aufgabe relevanten Neuronen zu identifizieren und gezielt anzupassen.
Zunächst wird in einem Vorexperiment gezeigt, dass die Feinabstimmung nur auf den identifizierten sensitiven Neuronen die Leistung des Gesamtmodells übertreffen kann. Darauf aufbauend wird eine allgemeinere Methode entwickelt, um sensitive Neuronen für komplexere Aufgaben wie Übersetzung und Zusammenfassung zu finden.
Die Ergebnisse zeigen, dass NeFT die Leistung des vollständig feinabgestimmten Modells sowie anderer effizienter Feinabstimmungsmethoden wie LoRA übertrifft. Durch eine detaillierte Analyse der Neuronendynamiken wird deutlich, dass Neuronen unterschiedlich stark von der Feinabstimmung betroffen sind und dass die identifizierten sensitiven Neuronen auch für den Transfer auf ähnliche Aufgaben nützlich sein können.
統計
Nicht alle Neuronen eines Großsprachmodells sind über verschiedene Datensätze hinweg aktiv, und diese Spärlichkeit korreliert positiv mit der aufgabenspezifischen Leistungsfähigkeit.
Traditionelle Feinabstimmungsmethoden nutzen alle Parameter des Modells, was rechenintensiv sein kann und möglicherweise nicht notwendig ist.
Neuronale Feinabstimmung (NeFT) ermöglicht eine präzisere und recheneffizientere Aktualisierung des Modells, indem nur die identifizierten sensitiven Neuronen angepasst werden.
引用
"Neurone, als grundlegende Bestandteile von Großsprachmodellen, erfüllen diverse Rollen über Modellregionen hinweg."
"Traditionelle Feinabstimmungsmethoden engagieren alle Parameter von Großsprachmodellen, was rechenintensiv ist und möglicherweise nicht notwendig ist."
"NeFT übertrifft nicht nur die Leistung der vollständigen Feinabstimmung, sondern liefert auch Erkenntnisse zur Analyse von Neuronen."