Keyformer: Effiziente Generierung durch intelligente Auswahl von Schlüsseltokens im KV-Cache
Keyformer ist ein innovativer Ansatz, der den KV-Cache während der Inferenz durch die intelligente Auswahl von Schlüsseltokens effizient reduziert, ohne die Genauigkeit des Modells zu beeinträchtigen.