Tandem-Transformatoren kombinieren ein kleines autoregessives Modell mit einem großen Modell, das im Blockverfahren arbeitet, um die Inferenzgeschwindigkeit großer Sprachmodelle zu verbessern, ohne dabei die Genauigkeit signifikant zu beeinträchtigen.
ALISA, eine neuartige Algorithmus-System-Co-Design-Lösung, beschleunigt die Inferenz großer Sprachmodelle in ressourcenbeschränkten Systemen durch sparsamkeitsbewusstes KV-Caching und dynamische Ablaufplanung.