Die Studie untersucht die Herausforderungen bei der Inferenz großer Sprachmodelle (LLMs) in ressourcenbeschränkten Systemen, insbesondere in Bezug auf den hohen Speicherbedarf für die Zwischenzustände (KV-Tensoren) in den Aufmerksamkeitsschichten.
Auf Algorithmusebene schlägt die Studie einen neuartigen Sparse Window Attention (SWA)-Algorithmus vor, der eine Mischung aus global dynamischen und lokal statischen Sparsitätsmustern in den KV-Tensoren erzeugt. Dadurch kann der Speicherbedarf erheblich reduziert werden, ohne die Genauigkeit signifikant zu beeinträchtigen.
Auf Systemebene entwickelt die Studie einen Drei-Phasen-Scheduler, der die KV-Tensoren dynamisch zwischen GPU- und CPU-Speicher allokiert und den Trade-off zwischen Caching und Recomputation optimiert, um die Gesamtleistung zu maximieren.
Experimente zeigen, dass ALISA in Einzelgpu-Cpu-Systemen eine bis zu 3-fache bzw. 1,9-fache Leistungssteigerung gegenüber FlexGen und vLLM erreichen kann.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Youpeng Zhao... lúc arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17312.pdfYêu cầu sâu hơn