Core Concepts
Effiziente Bewältigung von Durchsatz-Latenz-Trade-offs in LLM-Inferenz durch Sarathi-Serve.
Abstract
Die LLM-Inferenz besteht aus zwei Phasen: Prefill und Decode.
Sarathi-Serve optimiert den Durchsatz und minimiert die Latenz.
Chunked-Prefills und stallfreies Scheduling verbessern die Leistung.
Sarathi-Serve übertrifft Orca und vLLM in der Kapazität und Leistung.
Die Kombination von Chunked-Prefills und Hybrid-Batching optimiert die Leistung.
Stats
Jede LLM-Inferenzanfrage durchläuft zwei Phasen.
Die Prefill-Iterationen haben hohe Latenz, aber sättigen die GPU-Berechnung.
Sarathi-Serve verbessert den Durchsatz innerhalb der gewünschten Latenz-SLOs.
Quotes
"Priorisierung von Prefills optimiert den Durchsatz, opfert jedoch die TBT-Latenz."
"Sarathi-Serve eliminiert Generationsstopps und liefert gleichzeitig hohen Durchsatz."