GEAR proposes an efficient KV cache compression framework for near-lossless high-ratio compression, improving system throughput and reducing memory size.
LoRC는 사전 훈련된 LLM의 KV 캐시를 압축하여 메모리 사용량을 줄이면서도 성능 저하를 최소화하는 효율적인 저랭크 압축 기법이다.