ALISA, eine neuartige Algorithmus-System-Co-Design-Lösung, beschleunigt die Inferenz großer Sprachmodelle in ressourcenbeschränkten Systemen durch sparsamkeitsbewusstes KV-Caching und dynamische Ablaufplanung.
Tandem-Transformatoren kombinieren ein kleines autoregessives Modell mit einem großen Modell, das im Blockverfahren arbeitet, um die Inferenzgeschwindigkeit großer Sprachmodelle zu verbessern, ohne dabei die Genauigkeit signifikant zu beeinträchtigen.