Core Concepts
NeuroPrune ist ein neuronspirierter Algorithmus, der Sparsität in Transformer-basierten Sprachmodellen durch bevorzugte Anbindung und Redundanzbeseitigung in Aufmerksamkeits- und MLP-Schichten sowie Kopfpruning erzielt. Dadurch werden effizientere und leistungsfähigere Sprachmodelle ermöglicht.
Abstract
Der Artikel präsentiert NeuroPrune, einen neuronspirierten Algorithmus zum Sparse-Training von Transformer-basierten Sprachmodellen. NeuroPrune nutzt drei Mechanismen, um Sparsität zu induzieren:
Bevorzugte Anbindung (preferential attachment) in den MLP-Schichten: Hier wird eine gewichtete L1-Regularisierung verwendet, bei der Neuronen mit weniger Verbindungen stärker bestraft werden. Dies führt zu einer ungleichmäßigen Konnektivität, ähnlich wie in biologischen neuronalen Netzwerken.
Gruppensparsität in den Aufmerksamkeitsschichten: Hier wird eine L0.5,1-Regularisierung auf die Zeilen der Aufmerksamkeitsmatrizen (Q, K, V) angewendet. Dies ermöglicht das Entfernen ganzer Zeilen (Neuronen/Dimensionen), die wenig Einfluss haben.
Redundanzbasiertes Kopfpruning: Hier werden ähnliche Aufmerksamheitsköpfe identifiziert und entfernt, um die Komplexität weiter zu reduzieren, ohne die Leistung zu beeinträchtigen.
Die Experimente zeigen, dass NeuroPrune im Vergleich zu anderen Sparse-Methoden (CoFI, l1-Regularisierung) konkurrenzfähige oder sogar überlegene Leistung auf verschiedenen NLP-Aufgaben (GLUE, Zusammenfassung, Übersetzung) erzielt, bei gleichzeitig deutlich kürzeren Trainingszeiten und Inferenzgeschwindigkeitsverbesserungen.
Stats
Die Standardabweichung der Konnektivität der Neuronen in den MLP-Schichten steigt bei 50% Sparsität um bis zu zwei Größenordnungen (von 0,13 auf 12,12) und bei 90% Sparsität auf 4,16 an. Dies ist ein Indikator für die bevorzugte Anbindung, wie sie in biologischen neuronalen Netzwerken beobachtet wird.
Quotes
"NEUROPRUNE ist wettbewerbsfähig mit (oder manchmal sogar überlegen zu) Baselines in Bezug auf die Leistung und kann bis zu 10-mal schneller in Bezug auf die Trainingszeit für einen bestimmten Sparsitätsgrad sein, wobei es gleichzeitig messbare Verbesserungen der Inferenzzeit in vielen Fällen aufweist."