Основные понятия
Wir stellen ein Outlier-effizientes modernes Hopfield-Modell vor, das die Herausforderung der Outlier-Ineffizienz bei der Quantisierung riesiger Transformer-basierter Modelle adressiert. Unser Modell ermöglicht Outlier-effiziente assoziative Speicherabrufe und kann als leistungsfähige Aufmerksamkeitsalternative in Deep-Learning-Architekturen eingesetzt werden.
Аннотация
Die Autoren stellen ein Outlier-effizientes modernes Hopfield-Modell vor, um die Herausforderung der Outlier-Ineffizienz bei der Quantisierung großer Transformer-basierter Modelle zu adressieren.
Kernpunkte:
Das Modell fügt eine zusätzliche "No-Op-Klassifizierungs"-Dimension in den Zustandsraum der Hopfield-Energiefunktion ein, um Outlier-Muster zu identifizieren.
Die daraus resultierende Energiefunktion und Abruf-Dynamik ermöglichen Outlier-effiziente assoziative Speicherabrufe und approximieren einen Outlier-effizienten Aufmerksamkeitsmechanismus (Softmax1) als Spezialfall.
Theoretisch analysieren die Autoren die Konvergenzeigenschaften, Speicherkapazität und Verallgemeinerungsfähigkeit des Modells.
Empirisch zeigen die Autoren die Effektivität des Modells in großen Transformer-basierten und Hopfield-basierten Architekturen, einschließlich BERT, OPT, ViT und STanHop-Net. OutEffHop erzielt im Durchschnitt ~22+% Reduktion der durchschnittlichen Kurtosis und ~26+% Reduktion der maximalen Unendlichkeitsnorm über 4 Modelle.
Статистика
Die durchschnittliche Kurtosis wird über 4 Modelle um ~22+% reduziert.
Die maximale Unendlichkeitsnorm wird über 4 Modelle um ~26+% reduziert.
Цитаты
Keine relevanten Zitate identifiziert.