Die Studie untersucht das Phänomen der Parameterhetereogenität in großen Sprachmodellen (LLMs). Es wird gezeigt, dass eine kleine Teilmenge von "Cherry"-Parametern einen unverhältnismäßig großen Einfluss auf die Modellleistung haben, während die überwiegende Mehrheit der Parameter nur einen minimalen Einfluss aufweisen.
Diese Beobachtung wird über verschiedene LLM-Familien, Skalierungen und Typen hinweg konsistent nachgewiesen. Basierend darauf wird ein neuartiger quantisierungsbasierter Trainingsansatz namens CherryQ vorgestellt, der die kritischen Cherry-Parameter in hoher Präzision erhält und die restlichen Parameter aggressiv quantisiert.
Umfangreiche Experimente zeigen die Effektivität von CherryQ. Es übertrifft bestehende Quantisierungsansätze in Bezug auf Perplexität und Leistung in Downstream-Aufgaben. Insbesondere zeigt ein 3-bit quantisiertes Vicuna-1.5-Modell eine wettbewerbsfähige Leistung im Vergleich zu seinem 16-Bit-Pendant. Diese Erkenntnisse heben das Potenzial von CherryQ für eine effiziente Bereitstellung von LLMs durch Ausnutzung der Parameterhetereogenität hervor.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania