핵심 개념
KV 캐시 활성화가 추론 중 메모리 소비의 주요 요인이 되는 상황에서, 다양한 혁신적인 양자화 기법을 통해 정확도 저하를 최소화하면서도 KV 캐시 크기를 크게 줄일 수 있다.
초록
이 논문은 대규모 언어 모델(LLM)의 추론 효율성을 높이기 위한 방법을 제안한다. LLM 추론 시 Key-Value(KV) 캐시 활성화가 메모리 소비의 주요 요인이 되는데, 이를 해결하기 위해 다음과 같은 혁신적인 기법을 제안한다:
- 채널별 Key 양자화: Key 활성화의 분포를 더 잘 반영하도록 양자화 차원을 조정한다.
- RoPE 전 Key 양자화: RoPE 적용 전 Key 활성화를 양자화하여 RoPE의 영향을 완화한다.
- 비균일 KV 캐시 양자화: 각 층의 민감도 정보를 활용해 비균일 데이터 타입을 도출한다.
- 벡터별 밀집-희소 양자화: 각 벡터의 이상치를 별도로 처리하여 양자화 범위 왜곡을 줄인다.
- Q-Norm: 양자화 후 분포 변화를 보정하여 2비트 양자화 성능을 개선한다.
이러한 기법들을 LLaMA, LLaMA-2, Mistral 모델에 적용한 결과, 3비트 양자화 시 Wikitext-2와 C4 데이터셋에서 기존 대비 0.1 이내의 perplexity 저하를 달성했다. 이를 통해 단일 A100-80GB GPU에서 LLaMA-7B 모델의 최대 100만 문맥 길이 추론을, 8 GPU 시스템에서 최대 1천만 문맥 길이 추론을 가능하게 했다.
통계
LLaMA-7B 모델의 128K 문맥 길이 추론 시 KV 캐시 크기는 64GB이지만, 2비트 양자화를 통해 9.3GB로 압축 가능
LLaMA-7B 모델의 1백만 문맥 길이 추론 시 KV 캐시 크기는 512GB이지만, 2비트 양자화를 통해 74.4GB로 압축 가능
LLaMA-65B 모델의 1백만 문맥 길이 추론 시 KV 캐시 크기는 2,560GB이지만, 2비트 양자화를 통해 371.5GB로 압축 가능
인용구
"KV 캐시 활성화가 추론 중 메모리 소비의 주요 요인이 되는 상황에서, 이를 효과적으로 압축하는 것이 중요하다."
"본 연구에서는 다양한 혁신적인 양자화 기법을 통해 정확도 저하를 최소화하면서도 KV 캐시 크기를 크게 줄일 수 있었다."