Kompression von Großen Sprachmodellen: Die Wahrheit ist selten rein und niemals einfach
核心概念
Trotz beachtlicher Leistungen haben moderne Große Sprachmodelle (LLMs) exorbitante Rechenleistungs- und Speicheranforderungen. Obwohl mehrere Arbeiten erhebliche Erfolge bei trainingsfreier und datenfreier Kompression (Ausdünnung und Quantisierung) von LLMs erzielt haben, die eine Sparsität von 50-60% und eine Reduzierung der Bitbreite auf 3 oder 4 Bits pro Gewicht bei vernachlässigbarer Verschlechterung der Perplexität gegenüber der unkomprimierten Ausgangsvariante erreichen, zeigt unsere Arbeit, dass diese Perplexität-basierten Bewertungen die subtilen Änderungen in den Fähigkeiten komprimierter LLMs nicht erfassen können.
摘要
Die Studie untersucht die wahren Versprechen und Grenzen von State-of-the-Art-Kompressionsalgorithmen für Große Sprachmodelle (LLMs). Dazu wird eine umfassende und vielfältige Sammlung von Aufgaben zusammengestellt, um komprimierte LLMs unter Quantisierung und Netzwerkausdünnung (strukturierte und unstrukturierte Sparsitätsmuster) gründlich zu untersuchen.
Die Ergebnisse zeigen, dass:
- Die meisten State-of-the-Art-Ausdünnungsmethoden eine erhebliche Leistungseinbuße erleiden, manchmal schon bei trivialen Sparsitätsraten (z.B. 25-30%), obwohl die Perplexität kaum beeinträchtigt ist.
- Alle State-of-the-Art-Ausdünnungsmethoden für strukturierte N:M-Sparsitätsmuster bei wissensintensiven Aufgaben nicht zufriedenstellend funktionieren.
- Aktuelle State-of-the-Art-LLM-Quantisierungsmethoden erfolgreicher sind als State-of-the-Art-LLM-Ausdünnungsmethoden.
- Komprimierte LLMs versagen bei der Erzeugung von wissensreichen und faktisch korrekten Antworten, obwohl der generierte Text flüssig, konsistent und kohärent ist.
- Komprimierte LLMs mit größeren Architekturen, aber gleicher Parameterzahl, schneiden schlechter ab, was kleinere dichte Modelle begünstigt.
Darüber hinaus zeigt die Studie, dass komprimierte LLMs selbst bei erheblicher Kompression (z.B. ≥50% Sparsität) als robuste Retrievalsysteme fungieren und Textsumarisierung beibehalten können, ihre Fähigkeit, längeren Kontext zu verarbeiten, jedoch mit zunehmender Kompression stärker beeinträchtigt wird.
Compressing LLMs
統計資料
GPT-175B benötigt 325 GB GPU-Speicher, um nur seine Modellgewichte zu laden, und mindestens fünf A100 (80 GB) GPUs mit ausgeklügelten Parallelisierungstechniken.
Kompression durch Ausdünnung kann bis zu 50-60% Sparsität und eine Reduzierung der Bitbreite auf 3 oder 4 Bits pro Gewicht bei vernachlässigbarer Verschlechterung der Perplexität erreichen.
引述
"Trotz ihrer zahlreichen beispiellosen Fähigkeiten ist ihre Demokratisierung in erster Linie durch die Präsenz von Milliarden von Parametern eingeschränkt, die auf erstaunlich hohe Rechenleistungs- und Speicheranforderungen angewiesen sind."
"Perplexität, selbst im Falle von dichten LLMs, wurde in Frage gestellt als unzureichendes Maß zum Vergleich des wahren Potenzials von LLMs, trotz erheblicher Variationen in Modellgrößen, Trainingstrategien und Architekturwahlen."
深入探究
Wie können die durch Kompression verlorenen Kenntnisse durch parametereffizientes Finetuning, z.B. mit LoRA und QLoRA, wiederhergestellt werden?
Die Wiederherstellung der durch Kompression verlorenen Kenntnisse in Large Language Models (LLMs) durch parametereffizientes Finetuning wie LoRA und QLoRA ist ein vielversprechender Ansatz. LoRA (Low-Rank Adaptation) und QLoRA sind Techniken, die darauf abzielen, die Leistung von komprimierten LLMs zu verbessern, indem sie die verlorenen Informationen wiederherstellen.
LoRA konzentriert sich auf die Anpassung der Gewichte in komprimierten Modellen, um die Genauigkeit und Leistungsfähigkeit zu verbessern. Durch die Anpassung der niedrig-rangigen Gewichte können wichtige Informationen wiederhergestellt werden, die während der Kompression verloren gegangen sind. QLoRA hingegen zielt darauf ab, die Quantisierung von Gewichten zu optimieren, um die Genauigkeit zu verbessern und die Auswirkungen der Kompression zu mildern.
Durch die Verwendung von LoRA und QLoRA können die komprimierten LLMs effektiv feinabgestimmt werden, um die verlorenen Kenntnisse wiederherzustellen und die Leistung zu optimieren. Diese parametereffizienten Feinabstimmungstechniken bieten eine vielversprechende Möglichkeit, die Auswirkungen der Kompression auf die Fähigkeiten der LLMs zu mildern und ihre Leistungsfähigkeit zu verbessern.
Wie können neue Kompressionsalgorithmen entwickelt werden, die die subtilen Änderungen in den Fähigkeiten komprimierter LLMs besser erfassen?
Die Entwicklung neuer Kompressionsalgorithmen, die die subtilen Änderungen in den Fähigkeiten komprimierter LLMs besser erfassen, erfordert eine gründliche Untersuchung der Auswirkungen der Kompression auf die Leistung der Modelle. Einige Ansätze zur Entwicklung solcher Algorithmen könnten sein:
Berücksichtigung von Task-spezifischen Metriken: Anstatt sich ausschließlich auf allgemeine Metriken wie Perplexität zu verlassen, könnten neue Kompressionsalgorithmen task-spezifische Metriken verwenden, um die Leistung der LLMs in verschiedenen Anwendungen zu bewerten.
Berücksichtigung von Kontextualen Informationen: Neue Algorithmen könnten den Kontext und die spezifischen Anforderungen der Anwendung besser berücksichtigen, um sicherzustellen, dass die Kompression die Fähigkeiten der LLMs nicht beeinträchtigt.
Integration von Transfer Learning: Durch die Integration von Transfer Learning-Techniken können neue Kompressionsalgorithmen die Übertragung von Wissen zwischen komprimierten und unkomprimierten Modellen verbessern, um die Leistung zu erhalten.
Berücksichtigung von Strukturierten Sparsitätsmustern: Die Entwicklung von Algorithmen, die strukturierte Sparsitätsmuster berücksichtigen, kann dazu beitragen, die Auswirkungen der Kompression auf die Fähigkeiten der LLMs zu minimieren.
Durch die Berücksichtigung dieser Aspekte und die Entwicklung von Algorithmen, die die spezifischen Anforderungen und Feinheiten der Kompression von LLMs besser erfassen, können neue Kompressionsmethoden entwickelt werden, die die subtilen Änderungen in den Fähigkeiten komprimierter LLMs effektiver erfassen.
Welche Auswirkungen hat die Kompression auf die Leistung von LLMs in Anwendungen, die über die reine Textgenerierung hinausgehen, wie z.B. multimodale Aufgaben?
Die Kompression von Large Language Models (LLMs) hat signifikante Auswirkungen auf ihre Leistung in Anwendungen, die über die reine Textgenerierung hinausgehen, insbesondere in multimodalen Aufgaben, die verschiedene Modalitäten wie Text, Bild und Sprache kombinieren. Einige der Auswirkungen der Kompression auf die Leistung von LLMs in solchen Anwendungen sind:
Verlust von Multimodalen Fähigkeiten: Durch die Kompression können LLMs wichtige multimodale Fähigkeiten verlieren, die für die Verarbeitung und Integration verschiedener Modalitäten erforderlich sind. Dies kann sich negativ auf die Leistung in multimodalen Aufgaben auswirken.
Einschränkung der Kontextverarbeitung: Komprimierte LLMs können Schwierigkeiten haben, umfangreiche Kontextinformationen zu verarbeiten, was sich auf ihre Fähigkeit auswirken kann, komplexe multimodale Zusammenhänge zu verstehen und zu analysieren.
Reduzierte Genauigkeit bei der multimodalen Integration: Die Kompression kann zu einer reduzierten Genauigkeit bei der Integration von Text, Bildern und Sprache führen, was sich auf die Leistungsfähigkeit von LLMs in multimodalen Aufgaben auswirken kann.
Notwendigkeit von Feinabstimmung und Wiederherstellung: Um die Leistung von komprimierten LLMs in multimodalen Aufgaben zu verbessern, kann es erforderlich sein, spezielle Feinabstimmungs- und Wiederherstellungstechniken zu verwenden, um verlorene Fähigkeiten wiederherzustellen und die Genauigkeit zu erhöhen.
Insgesamt kann die Kompression die Leistung von LLMs in multimodalen Aufgaben beeinträchtigen, insbesondere in Bezug auf die Verarbeitung verschiedener Modalitäten und die Integration von Informationen aus verschiedenen Quellen. Es ist wichtig, spezielle Ansätze zu entwickeln, um die Auswirkungen der Kompression auf die Leistung von LLMs in solchen anspruchsvollen Anwendungen zu mildern und ihre Fähigkeiten zu erhalten.