CacheGen은 대형 언어 모델 시스템에서 문맥 로딩 지연을 크게 줄이는 기술이다. 이를 위해 CacheGen은 KV 캐시를 더 작은 비트스트림으로 압축하고, 가용 대역폭 변화에 적응하여 문맥을 효율적으로 스트리밍한다.