Download Linnk AI
•
Research Assistant
>
Sign In
insight
-
대규모 언어 모델 추론을 위한 KV 캐시 압축
대규모 언어 모델 추론을 위한 2차원 KV 캐시 관리: 레이어별 최적 예산 할당
레이어별 중요도를 활용하여 KV 캐시를 두 차원에서 최적화함으로써 메모리 사용량을 크게 줄이고 처리량을 향상시킬 수 있다.
1