Core Concepts
Ein In-Context-Autoencoder (ICAE) nutzt die Leistungsfähigkeit eines großen Sprachmodells, um lange Kontexte in kompakte Speicherslots zu komprimieren, die vom Sprachmodell direkt für verschiedene Zwecke genutzt werden können.
Abstract
Der Artikel stellt den In-Context-Autoencoder (ICAE) vor, der die Leistungsfähigkeit großer Sprachmodelle nutzt, um lange Kontexte in kompakte Speicherslots zu komprimieren. Der ICAE besteht aus einem lernbaren Encoder, der den Originalkontext in Speicherslots kodiert, und einem festen Decoder, der das Sprachmodell selbst ist.
Der ICAE wird zunächst mit Hilfe von Autoencoding- und Sprachmodellierungszielen auf massiven Textdaten vortrainiert, um Speicherslots zu erzeugen, die den Originalkontext genau und umfassend repräsentieren. Anschließend wird er auf Instruktionsdaten feinabgestimmt, um die Interaktion der Speicherslots mit verschiedenen Aufforderungen zu verbessern.
Die Experimente zeigen, dass der leichtgewichtige ICAE, der nur etwa 1% zusätzliche Parameter hinzufügt, eine 4-fache Kontextkompression auf Basis von Llama erreicht und Vorteile in Bezug auf verbesserte Latenz und GPU-Speicherkosten während der Inferenz bietet. Darüber hinaus liefert der ICAE interessante Erkenntnisse zur Memorisierung und zum Potenzial der Skalierbarkeit.
Stats
Der ICAE kann Kontexte mit einer Länge von 512 Tokens auf 128 Speicherslots komprimieren, ohne dabei wesentliche Informationen zu verlieren.
Bei einer Kompression von 4x (512 auf 128 Slots) zeigt der ICAE einen Perplexitätsanstieg von nur 0,49.
Mit zunehmender Kompression (z.B. 8x von 4096 auf 512 Slots) steigt die Perplexität stärker an, was auf Informationsverluste hindeutet.
Quotes
"Der ICAE kann effektiv 4x Kontextkompression auf Basis von Llama erreichen und bietet Vorteile in Bezug auf verbesserte Latenz und GPU-Speicherkosten während der Inferenz."
"Der ICAE liefert interessante Erkenntnisse zur Memorisierung und zum Potenzial der Skalierbarkeit."