본 논문에서는 구형 하드웨어에서도 대규모 언어 모델(LLM) 추론을 효율적이고 지속 가능하게 만드는 혼합 정밀도 및 다단계 캐싱(M2Cache) 기반 아키텍처를 제안합니다.
SplitLLM이라는 새로운 협업 추론 아키텍처를 통해 서버와 클라이언트 장치 간에 LLM 추론 작업을 효율적으로 분산하여 서버 처리량을 개선하고 서비스 수준 계약(SLA)을 준수합니다.
LLM 추론에서 처리량과 지연을 최적화하는 Sarathi-Serve의 효율성