Die Studie untersucht das Phänomen der Parameterhetereogenität in großen Sprachmodellen (LLMs). Es wird gezeigt, dass eine kleine Teilmenge von "Cherry"-Parametern einen unverhältnismäßig großen Einfluss auf die Modellleistung haben, während die überwiegende Mehrheit der Parameter nur einen minimalen Einfluss aufweisen.
Diese Beobachtung wird über verschiedene LLM-Familien, Skalierungen und Typen hinweg konsistent nachgewiesen. Basierend darauf wird ein neuartiger quantisierungsbasierter Trainingsansatz namens CherryQ vorgestellt, der die kritischen Cherry-Parameter in hoher Präzision erhält und die restlichen Parameter aggressiv quantisiert.
Umfangreiche Experimente zeigen die Effektivität von CherryQ. Es übertrifft bestehende Quantisierungsansätze in Bezug auf Perplexität und Leistung in Downstream-Aufgaben. Insbesondere zeigt ein 3-bit quantisiertes Vicuna-1.5-Modell eine wettbewerbsfähige Leistung im Vergleich zu seinem 16-Bit-Pendant. Diese Erkenntnisse heben das Potenzial von CherryQ für eine effiziente Bereitstellung von LLMs durch Ausnutzung der Parameterhetereogenität hervor.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Wanyun Cui,Q... às arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02837.pdfPerguntas Mais Profundas