下載 Linnk AI
•
AI 研究助理
>
登入
洞見
-
대규모 언어 모델 추론을 위한 KV 캐시 압축
대규모 언어 모델 추론을 위한 2차원 KV 캐시 관리: 레이어별 최적 예산 할당
레이어별 중요도를 활용하여 KV 캐시를 두 차원에서 최적화함으로써 메모리 사용량을 크게 줄이고 처리량을 향상시킬 수 있다.
1