Core Concepts
탄력적 시퀀스 병렬화(ESP)를 통해 다양한 길이의 요청과 요청의 서로 다른 단계에서 효율적으로 리소스를 활용할 수 있는 LLM 서빙 시스템 LoongServe를 제안한다.
Abstract
이 논문은 장기 문맥 대형 언어 모델(LLM)을 효율적으로 서빙하는 LoongServe 시스템을 제안한다. LLM의 문맥 창이 급격히 증가함에 따라 요청 간 및 동일 요청의 단계 간 리소스 사용량 편차가 커지는 문제가 발생한다. 기존 해결책들은 정적인 병렬화 전략을 사용하여 이 문제를 해결하지 못했다.
LoongServe는 탄력적 시퀀스 병렬화(ESP)라는 새로운 병렬화 패러다임을 제안한다. ESP는 실시간으로 병렬화 정도를 동적으로 조절하여 다양한 요청과 단계의 리소스 수요에 효율적으로 대응한다. LoongServe는 ESP를 기반으로 다음과 같은 기능을 제공한다:
실시간으로 병렬화 정도를 동적으로 조절하여 계산 효율성 향상
키-값 캐시 마이그레이션 오버헤드 감소와 부분 디코딩 통신을 계산과 중첩하여 통신 효율성 향상
토큰 단위 키-값 캐시 관리를 통한 GPU 메모리 효율성 향상
실험 결과, LoongServe는 기존 솔루션 대비 최대 3.85배 처리량 향상을 보였다.
Stats
입력 길이가 100K인 요청은 입력 길이가 1K인 요청보다 105.97배 느리다.
입력 길이가 500K인 요청의 키-값 텐서 GPU 사용량은 2.2TB에 달한다.
Quotes
"LLM 서빙 워크로드는 매우 동적이다. 문맥 창이 증가함에 따라 요청 길이의 편차가 커지고, 동일 요청의 단계 간에도 리소스 수요가 크게 다르다."
"기존 정적 병렬화 전략은 다양한 길이의 요청과 요청의 서로 다른 단계에 효율적으로 대응할 수 없다."