Optimierung des KV-Caches in LLM-Inferenz durch schichtweise optimale Budgetierung
Durch die Identifizierung der Wichtigkeit von Aufmerksamkeitsschichten kann der KV-Cache von Großsprachmodellen gemeinsam aus zwei Dimensionen optimiert werden, um Speicherverbrauch und Durchsatz deutlich zu verbessern.