LLoCO ist eine neuartige Methode, die lange Kontexte effizient verarbeitet, indem sie den Kontext offline durch Kompression und parametereffizientes Finetuning lernt. Dadurch kann LLoCO die effektive Kontextgröße eines 4k-Token-LLaMA2-7B-Modells auf bis zu 128k Token erweitern und dabei die Leistung deutlich verbessern, während es 30-mal weniger Token verwendet.
LONGHEADS ist ein trainingsfreier Rahmen, der die inhärenten Fähigkeiten von Multi-Head-Aufmerksamkeit nutzt, um Sprachmodelle in die Lage zu versetzen, lange Kontexte effizient und effektiv zu verarbeiten, ohne zusätzliches Training.