Core Concepts
ALISA는 희소성 인식 알고리즘과 동적 스케줄링을 통해 자원 제한 시스템에서 대규모 언어 모델 추론 성능을 크게 향상시킨다.
Abstract
이 논문은 대규모 언어 모델(LLM) 추론 가속화를 위한 ALISA라는 알고리즘-시스템 공동 설계 솔루션을 제안한다.
알고리즘 수준에서, ALISA는 Sparse Window Attention (SWA) 알고리즘을 사용하여 전역적으로 동적이고 지역적으로 정적인 희소 패턴을 생성하여 메모리 사용량을 크게 줄이면서도 모델 정확도를 유지한다.
시스템 수준에서, ALISA는 3단계 스케줄러를 사용하여 KV 텐서를 동적으로 할당하고 캐싱과 재계산 간의 최적의 균형을 달성하여 전체 처리량을 극대화한다.
실험 결과, 단일 GPU-CPU 시스템에서 ALISA는 FlexGen 및 vLLM 대비 최대 3배 및 1.9배의 처리량 향상을 달성했다.
Stats
단일 NVIDIA Tesla V100 GPU에서 OPT-6.7B 모델 추론 시, KV 텐서가 GPU 메모리의 60% 이상을 차지한다.
50%의 KV 텐서를 CPU 메모리에 오프로드하면 전체 실행 시간이 3배 증가한다.
모든 KV 텐서를 CPU 메모리에 오프로드하면 실행 시간이 5배 증가한다.
Quotes
"LLM 추론은 메모리 문제이지 계산 문제가 아니다."
"KV 텐서의 크기가 GPU 메모리 용량을 초과하면 CPU 메모리로 오프로드해야 하지만, 이로 인한 데이터 전송 오버헤드가 새로운 병목 현상이 된다."