Core Concepts
Durch das Clustern von Aufmerksamkeitsköpfen mit ähnlichen Ausgaben können sowohl der Rechenaufwand als auch der Speicherbedarf für die Inferenz von Großen Sprachmodellen reduziert werden, ohne dass die Genauigkeit stark beeinträchtigt wird.
Abstract
Die Autoren beobachten, dass es in Großen Sprachmodellen mit Multi-Head-Aufmerksamkeit (MHA) eine hohe Redundanz zwischen den Aufmerksamkeitsköpfen gibt, da viele Köpfe ähnliche Gewichte auf die Tokens in einer Sequenz geben. Basierend auf dieser Beobachtung schlagen sie Clustered Head Attention (CHAI) vor, eine Methode, die Aufmerksamkeitsköpfe mit hoher Korrelation zur Laufzeit kombiniert.
CHAI reduziert den Rechenaufwand, indem es nur die Selbstaufmerksamkeitsoperation für einen repräsentativen Kopf innerhalb eines Clusters durchführt. Außerdem verringert CHAI den Speicherbedarf für das Zwischenspeichern der Key-Value-Paare, da es die Schlüssel für redundante Köpfe entfernt.
Die Autoren zeigen, dass CHAI den Inferenz-Zeitaufwand um bis zu 1,73x und den Speicherbedarf für den Key-Value-Cache um bis zu 21,4% im Vergleich zu MHA reduzieren kann, ohne dass die Genauigkeit stark beeinträchtigt wird (maximal 3,2% Abweichung).
Im Vergleich zu anderen Methoden zur Laufzeit-Optimierung wie DEJAVU, die nur für bestimmte Modelle wie OPT geeignet sind, ist CHAI für eine breitere Klasse von Modellen anwendbar und erzielt bessere Ergebnisse.
Stats
"CHAI reduziert den Speicherbedarf für den Key-Value-Cache um bis zu 21,4% im Vergleich zu MHA."
"CHAI beschleunigt die Inferenz-Zeit um bis zu 1,73x im Vergleich zu MHA."
Quotes
"Wir beobachten, dass es eine hohe Redundanz zwischen den Ausgaben verschiedener Aufmerksamkeitsköpfe in MHA gibt, d.h. die Ausgabe mehrerer Aufmerksamkeitsköpfe konzentriert sich auf die gleichen Tokens."
"CHAI kombiniert Aufmerksamkeitsköpfe mit hoher Korrelation zur Laufzeit, um sowohl den Rechenaufwand als auch den Speicherbedarf zu reduzieren."