Effiziente Streaming-Sprachmodelle mit Aufmerksamkeitssenken
Durch das Beibehalten der Aufmerksamkeitssenken (einige Anfangstokens) zusammen mit dem gleitenden Fenstercache können Sprachmodelle stabil und effizient für Texte mit unbegrenzter Länge eingesetzt werden.