Core Concepts
ALISA, eine neuartige Algorithmus-System-Co-Design-Lösung, beschleunigt die Inferenz großer Sprachmodelle in ressourcenbeschränkten Systemen durch sparsamkeitsbewusstes KV-Caching und dynamische Ablaufplanung.
Abstract
Die Studie untersucht die Herausforderungen bei der Inferenz großer Sprachmodelle (LLMs) in ressourcenbeschränkten Systemen, insbesondere in Bezug auf den hohen Speicherbedarf für die Zwischenzustände (KV-Tensoren) in den Aufmerksamkeitsschichten.
Auf Algorithmusebene schlägt die Studie einen neuartigen Sparse Window Attention (SWA)-Algorithmus vor, der eine Mischung aus global dynamischen und lokal statischen Sparsitätsmustern in den KV-Tensoren erzeugt. Dadurch kann der Speicherbedarf erheblich reduziert werden, ohne die Genauigkeit signifikant zu beeinträchtigen.
Auf Systemebene entwickelt die Studie einen Drei-Phasen-Scheduler, der die KV-Tensoren dynamisch zwischen GPU- und CPU-Speicher allokiert und den Trade-off zwischen Caching und Recomputation optimiert, um die Gesamtleistung zu maximieren.
Experimente zeigen, dass ALISA in Einzelgpu-Cpu-Systemen eine bis zu 3-fache bzw. 1,9-fache Leistungssteigerung gegenüber FlexGen und vLLM erreichen kann.
Stats
Die Aufmerksamkeitsgewichte in großen Sprachmodellen sind sehr dünn besetzt, mit einer Sparsität von bis zu 95% in einigen Schichten.
Größere Sprachmodelle weisen eine höhere Sparsität auf, z.B. ist die Dichte (1 - Sparsität) von OPT-30B etwa 3-mal geringer als die von OPT-6.7B.
Quotes
"Nicht alle Wörter (Token) sind gleich, manche sind wichtiger als andere."
"Größere Sprachmodelle weisen eine höhere Sparsität in den Aufmerksamkeitsgewichten auf."