LONGHEADS ist ein trainingsfreier Rahmen, der die inhärenten Fähigkeiten von Multi-Head-Aufmerksamkeit nutzt, um Sprachmodelle in die Lage zu versetzen, lange Kontexte effizient und effektiv zu verarbeiten, ohne zusätzliches Training.
LLoCO ist eine neuartige Methode, die lange Kontexte effizient verarbeitet, indem sie den Kontext offline durch Kompression und parametereffizientes Finetuning lernt. Dadurch kann LLoCO die effektive Kontextgröße eines 4k-Token-LLaMA2-7B-Modells auf bis zu 128k Token erweitern und dabei die Leistung deutlich verbessern, während es 30-mal weniger Token verwendet.