Die Studie untersucht das Phänomen der Parameterhetereogenität in großen Sprachmodellen (LLMs). Es wird gezeigt, dass eine kleine Teilmenge von "Cherry"-Parametern einen unverhältnismäßig großen Einfluss auf die Modellleistung haben, während die überwiegende Mehrheit der Parameter nur einen minimalen Einfluss aufweisen.
Diese Beobachtung wird über verschiedene LLM-Familien, Skalierungen und Typen hinweg konsistent nachgewiesen. Basierend darauf wird ein neuartiger quantisierungsbasierter Trainingsansatz namens CherryQ vorgestellt, der die kritischen Cherry-Parameter in hoher Präzision erhält und die restlichen Parameter aggressiv quantisiert.
Umfangreiche Experimente zeigen die Effektivität von CherryQ. Es übertrifft bestehende Quantisierungsansätze in Bezug auf Perplexität und Leistung in Downstream-Aufgaben. Insbesondere zeigt ein 3-bit quantisiertes Vicuna-1.5-Modell eine wettbewerbsfähige Leistung im Vergleich zu seinem 16-Bit-Pendant. Diese Erkenntnisse heben das Potenzial von CherryQ für eine effiziente Bereitstellung von LLMs durch Ausnutzung der Parameterhetereogenität hervor.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Wanyun Cui,Q... a las arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02837.pdfConsultas más profundas