Dieser Artikel stellt LLoCO, eine neuartige Methode zur effizienten Verarbeitung langer Kontexte in Sprachmodellen, vor. Lange Kontexte stellen eine Herausforderung für große Sprachmodelle (LLMs) dar, da der quadratische Rechenaufwand und Speicherbedarf der Selbstaufmerksamkeitsmechanismen sowie die großen KV-Cache-Größen während der Generierung die Leistung beeinträchtigen.
LLoCO adressiert dieses Problem, indem es den Kontext offline durch Kompression und parametereffizientes Finetuning lernt. Zunächst wird der Kontext mithilfe eines Kompressionsmodells (AutoCompressor) in eine kompakte Darstellung überführt. Anschließend wird das Sprachmodell (LLaMA2-7B) durch parametereffizientes Finetuning (LoRA) auf diese komprimierten Kontextdarstellungen trainiert. Dadurch kann LLoCO die effektive Kontextgröße von 4k auf bis zu 128k Token erweitern und dabei die Leistung deutlich verbessern, während es 30-mal weniger Token verwendet.
Die Evaluierung auf verschiedenen Datensätzen für Frage-Antwort-Aufgaben und Zusammenfassungen zeigt, dass LLoCO die Baseline-Modelle deutlich übertrifft. Insbesondere auf dem NarrativeQA-Datensatz, bei dem die durchschnittliche Dokumentlänge 84.770 Token beträgt und damit die Kontextgrenze des Baseline-Modells übersteigt, erzielt LLoCO beeindruckende Ergebnisse.
Darüber hinaus bietet LLoCO erhebliche Effizienzvorteile. Es erreicht eine Beschleunigung von bis zu 7,62x bei der Inferenz und eine 11,52x höhere Durchsatzrate beim Finetuning im Vergleich zum Baseline-Modell mit vollem Kontext.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Sijun Tan,Xi... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07979.pdfDeeper Inquiries