Die Studie untersucht, wie die Wichtigkeit einzelner Aufmerksamkeitsschichten in Großsprachmodellen (LLMs) quantifiziert und genutzt werden kann, um den KV-Cache (Key-Value-Cache) effizienter zu optimieren.
Zunächst wird beobachtet, dass die ersten Hälfte der Aufmerksamkeitsschichten im Allgemeinen einen größeren Beitrag zur Ausgaberepräsentation leisten als die zweite Hälfte. Außerdem sind einige spezifische Schichten, typischerweise die ersten und letzten, wichtiger als andere Schichten, je nach Modell und Datensatz.
Basierend auf dieser Beobachtung schlägt die Studie den SQUEEZEATTENTION-Algorithmus vor, der den KV-Cache nicht nur aus der Sequenzdimension, sondern auch aus der Schichtdimension komprimiert. SQUEEZEATTENTION kategorisiert die Schichten anhand ihrer Wichtigkeit und weist den Schichten unterschiedliche Cachequoten zu, sodass wichtige Schichten mehr Tokens cachen können, um die Modellgenauigkeit zu stabilisieren, während unwichtige Schichten mehr unnötige Tokens fallen lassen können, um Kosten zu sparen.
Die Experimente zeigen, dass SQUEEZEATTENTION in Kombination mit verschiedenen sequenzbasierten KV-Cache-Kompressionsalgorithmen 30% bis 70% Speichereinsparungen und bis zu 2,2-fache Durchsatzverbesserungen in einer Vielzahl von LLMs und Benchmarks erreichen kann.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問