Centrala begrepp
LLM 추론에서 처리량과 지연을 최적화하는 Sarathi-Serve의 효율성
Statistik
LLM 서빙 요청은 두 단계를 거침
Prefill 단계는 입력 프롬프트 처리
Decode 단계는 출력 토큰 생성
Sarathi-Serve는 처리량 향상과 지연 최소화
Citat
"LLM 추론에서 처리량과 지연을 최적화하는 Sarathi-Serve의 효율성"
"Sarathi-Serve는 Chunked-prefills와 stall-free batching을 활용"