Kompression von Großen Sprachmodellen: Die Wahrheit ist selten rein und niemals einfach
Trotz beachtlicher Leistungen haben moderne Große Sprachmodelle (LLMs) exorbitante Rechenleistungs- und Speicheranforderungen. Obwohl mehrere Arbeiten erhebliche Erfolge bei trainingsfreier und datenfreier Kompression (Ausdünnung und Quantisierung) von LLMs erzielt haben, die eine Sparsität von 50-60% und eine Reduzierung der Bitbreite auf 3 oder 4 Bits pro Gewicht bei vernachlässigbarer Verschlechterung der Perplexität gegenüber der unkomprimierten Ausgangsvariante erreichen, zeigt unsere Arbeit, dass diese Perplexität-basierten Bewertungen die subtilen Änderungen in den Fähigkeiten komprimierter LLMs nicht erfassen können.