Core Concepts
CacheGen은 대형 언어 모델 시스템에서 문맥 로딩 지연을 크게 줄이는 기술이다. 이를 위해 CacheGen은 KV 캐시를 더 작은 비트스트림으로 압축하고, 가용 대역폭 변화에 적응하여 문맥을 효율적으로 스트리밍한다.
Abstract
CacheGen은 대형 언어 모델(LLM) 시스템에서 문맥 로딩 지연을 줄이기 위한 기술이다.
KV 캐시 인코딩:
KV 캐시의 분포적 특성을 활용하여 더 작은 비트스트림으로 압축한다.
이를 통해 KV 캐시 전송에 필요한 대역폭을 크게 줄일 수 있다.
KV 캐시 스트리밍:
가용 대역폭 변화에 적응하여 문맥 청크를 효율적으로 스트리밍한다.
대역폭이 낮을 때는 압축 수준을 높이거나 텍스트 형식으로 전송하여 LLM이 KV 캐시를 직접 재계산하도록 한다.
실험 결과, CacheGen은 기존 시스템 대비 문맥 로딩 지연을 2.7-4.3배 줄이고, KV 캐시 크기를 3.7-4.3배 줄일 수 있었다. 또한 최신 문맥 압축 기술에 CacheGen을 적용하면 추가로 4.7-5.5배 KV 캐시 크기를 줄일 수 있었다.
Stats
대형 언어 모델의 KV 캐시는 수십 GB에 달하며, 이를 네트워크로 전송하는 데 수 초가 걸릴 수 있다.
CacheGen은 KV 캐시 크기를 3.7-4.3배 줄일 수 있어, 전송 지연을 크게 감소시킬 수 있다.
Quotes
"CacheGen은 대형 언어 모델 시스템에서 문맥 로딩 지연을 크게 줄이는 기술이다."
"CacheGen은 KV 캐시를 더 작은 비트스트림으로 압축하고, 가용 대역폭 변화에 적응하여 문맥을 효율적으로 스트리밍한다."