Keskeiset käsitteet
DEFT ist ein IO-bewusster Baum-Aufmerksamkeits-Algorithmus, der die Inferenz-Effizienz von Großsprachmodellen durch Optimierung des Speicherzugriffs erheblich verbessert.
Tiivistelmä
Der Artikel stellt DEFT, einen neuartigen IO-bewussten Baum-Aufmerksamkeits-Algorithmus, vor, um die Inferenz-Effizienz von Großsprachmodellen in Kombination mit Baumsuche-Algorithmen zu beschleunigen.
Der Kern des Ansatzes besteht aus zwei Phasen:
- QKV-Vorbereitung:
- DEFT verwendet eine KV-geführte Baumaufteilung, um die redundanten IO-Vorgänge für KV zu eliminieren, ohne die Abfrage-IO-Kosten wesentlich zu erhöhen.
- Dies wird durch die Gruppierung der KV jedes Knotens mit allen Abfragen, die sie gemeinsam nutzen, basierend auf der Baumtopologie erreicht.
- Aufmerksamkeitsberechnung:
- DEFT verwendet einen fusionierten Kernel, um die IO-Kosten für Teilergebnisse wie QK⊤und Softmax zu eliminieren.
- Außerdem führt DEFT eine baumtopologie-bewusste globale Reduktion durch, um die finalen Aufmerksamkeitsergebnisse zu erhalten.
Durch die Reduzierung der KV-Cache-IO um den Faktor 3,6-4,5 und die zusätzliche Reduzierung der IO für QK⊤und Softmax um 25% der gesamten KV-Cache-IO kann DEFT eine Beschleunigung von 1,7-2,4x in der End-to-End-Latenz über zwei praktische Reasoning-Aufgaben im Vergleich zu den aktuellen Aufmerksamkeitsalgorithmen erreichen.
Tilastot
Die Länge der KV-Cache ist in 79,5% der Fälle beim Sortieren von 128 Zahlen und in 100% der Fälle beim Dokumentenzusammenführen größer als die maximale Abfragelänge.
DEFT kann die KV-Cache-IO um den Faktor 3,6-4,5 reduzieren.
DEFT kann die IO für QK⊤und Softmax um 25% der gesamten KV-Cache-IO reduzieren.
Lainaukset
"DEFT kann eine Beschleunigung von 1,7-2,4x in der End-to-End-Latenz über zwei praktische Reasoning-Aufgaben im Vergleich zu den aktuellen Aufmerksamkeitsalgorithmen erreichen."