核心概念
GEAR proposes an efficient KV cache compression framework for near-lossless high-ratio compression, improving system throughput and reducing memory size.
统计
GEAR는 4비트 KV 캐시 압축으로 거의 손실 없는 성능을 달성합니다.
GEAR는 최대 2.38배의 처리량 향상을 제공합니다.
GEAR는 최대 2.29배의 최대 메모리 크기를 줄입니다.
引用
"GEAR achieves near-lossless 4-bit KV cache compression with up to 2.38× throughput improvement."
"Our experiments demonstrate that compared to alternatives, GEAR achieves near-lossless 4-bit KV cache compression with up to 2.38× throughput improvement."