Die Studie untersucht die Herausforderungen bei der Inferenz großer Sprachmodelle (LLMs) in ressourcenbeschränkten Systemen, insbesondere in Bezug auf den hohen Speicherbedarf für die Zwischenzustände (KV-Tensoren) in den Aufmerksamkeitsschichten.
Auf Algorithmusebene schlägt die Studie einen neuartigen Sparse Window Attention (SWA)-Algorithmus vor, der eine Mischung aus global dynamischen und lokal statischen Sparsitätsmustern in den KV-Tensoren erzeugt. Dadurch kann der Speicherbedarf erheblich reduziert werden, ohne die Genauigkeit signifikant zu beeinträchtigen.
Auf Systemebene entwickelt die Studie einen Drei-Phasen-Scheduler, der die KV-Tensoren dynamisch zwischen GPU- und CPU-Speicher allokiert und den Trade-off zwischen Caching und Recomputation optimiert, um die Gesamtleistung zu maximieren.
Experimente zeigen, dass ALISA in Einzelgpu-Cpu-Systemen eine bis zu 3-fache bzw. 1,9-fache Leistungssteigerung gegenüber FlexGen und vLLM erreichen kann.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問