本文提出了一種名為AQLM的新方法,用於實現大型語言模型的極端壓縮。AQLM擴展了經典的加法量化(AQ)方法,通過兩個創新來實現更高的壓縮效果:
AQLM在2位元壓縮下顯著優於現有最佳方法,同時在3-4位元壓縮範圍內也有較大優勢。此外,AQLM還提供了高效的GPU和CPU實現,在大幅減少內存占用的同時,還能達到與浮點基線相當或更好的推理速度。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Vage Egiazar... às arxiv.org 09-12-2024
https://arxiv.org/pdf/2401.06118.pdfPerguntas Mais Profundas