키포머는 생성 추론 과정에서 KV 캐시 크기와 메모리 대역폭 사용을 줄이는 혁신적인 접근법을 제안합니다. 키포머는 주요 토큰을 식별하여 KV 캐시에 유지함으로써 KV 캐시 크기와 메모리 대역폭 사용을 줄이면서도 모델 정확도를 유지합니다.