Core Concepts
Durch den Einsatz von 2:4-Spärlichkeit kann das Vortraining großer Transformer-Modelle beschleunigt werden, ohne dass dabei Genauigkeit verloren geht.
Abstract
Die Studie untersucht Möglichkeiten, das Vortraining großer Transformer-Modelle durch den Einsatz von 2:4-Spärlichkeit zu beschleunigen. Dafür werden drei Hauptbeiträge geleistet:
Es werden drei Techniken vorgestellt, um die Genauigkeit des 2:4-Sparse-Trainings zu erhalten: Anwendung des "masked decay" auf Gradienten statt auf Gewichte, Bestimmung eines geeigneten Decay-Faktors in der Aufwärmphase, und Verwendung eines dichten Fine-Tunings am Ende des Vortrainings.
Es werden praktische Faktoren analysiert, die die Trainingsgeschwindigkeit von 2:4-Sparse-Transformern beeinflussen. Zwei Engpässe werden identifiziert und durch beschleunigte Kernel-Methoden adressiert: der Overhead beim Pruning und der Overhead der gated Aktivierungsfunktionen.
Die Experimente zeigen, dass mit dem vorgeschlagenen Sparse-Trainingsverfahren Transformer-Modelle trainiert werden können, die in Genauigkeit mit dicht trainierten Modellen vergleichbar oder sogar überlegen sind. Außerdem kann eine Ende-zu-Ende-Beschleunigung von bis zu 1,2x erreicht werden.
Stats
Die Studie enthält keine expliziten Statistiken oder Kennzahlen, die extrahiert werden könnten.
Quotes
Die Studie enthält keine hervorstechenden Zitate, die relevant wären.