Core Concepts
Durch die Identifizierung der Wichtigkeit von Aufmerksamkeitsschichten kann der KV-Cache von Großsprachmodellen gemeinsam aus zwei Dimensionen optimiert werden, um Speicherverbrauch und Durchsatz deutlich zu verbessern.
Abstract
Die Studie untersucht, wie die Wichtigkeit einzelner Aufmerksamkeitsschichten in Großsprachmodellen (LLMs) quantifiziert und genutzt werden kann, um den KV-Cache (Key-Value-Cache) effizienter zu optimieren.
Zunächst wird beobachtet, dass die ersten Hälfte der Aufmerksamkeitsschichten im Allgemeinen einen größeren Beitrag zur Ausgaberepräsentation leisten als die zweite Hälfte. Außerdem sind einige spezifische Schichten, typischerweise die ersten und letzten, wichtiger als andere Schichten, je nach Modell und Datensatz.
Basierend auf dieser Beobachtung schlägt die Studie den SQUEEZEATTENTION-Algorithmus vor, der den KV-Cache nicht nur aus der Sequenzdimension, sondern auch aus der Schichtdimension komprimiert. SQUEEZEATTENTION kategorisiert die Schichten anhand ihrer Wichtigkeit und weist den Schichten unterschiedliche Cachequoten zu, sodass wichtige Schichten mehr Tokens cachen können, um die Modellgenauigkeit zu stabilisieren, während unwichtige Schichten mehr unnötige Tokens fallen lassen können, um Kosten zu sparen.
Die Experimente zeigen, dass SQUEEZEATTENTION in Kombination mit verschiedenen sequenzbasierten KV-Cache-Kompressionsalgorithmen 30% bis 70% Speichereinsparungen und bis zu 2,2-fache Durchsatzverbesserungen in einer Vielzahl von LLMs und Benchmarks erreichen kann.
Stats
Der KV-Cache übersteigt oft das Modellgewicht, wenn mehr als 28.000 Tokens verarbeitet werden.
SQUEEZEATTENTION kann ähnliche Inferenzgenauigkeiten mit deutlich weniger KV-Cache insgesamt erreichen.
SQUEEZEATTENTION kann 70% bis 80% des Speicherverbrauchs pro Token im Vergleich zur Vollständigen Zwischenspeicherung einsparen und 25% bis 66% im Vergleich zu Baseline-Algorithmen.
SQUEEZEATTENTION kann den Durchsatz für Mistral-7B um bis zu 2,2-fach und für Llama2-70B um bis zu 1,4-fach im Vergleich zur Vollständigen Zwischenspeicherung steigern.
Quotes
"Durch die Identifizierung der Wichtigkeit von Aufmerksamkeitsschichten können wir den KV-Cache gemeinsam aus zwei Dimensionen optimieren, um Speicherverbrauch und Durchsatz deutlich zu verbessern."
"SQUEEZEATTENTION kann ähnliche Inferenzgenauigkeiten mit deutlich weniger KV-Cache insgesamt erreichen."