Concepts de base
LoRC는 사전 훈련된 LLM의 KV 캐시를 압축하여 메모리 사용량을 줄이면서도 성능 저하를 최소화하는 효율적인 저랭크 압축 기법이다.
Résumé
LLM KV 캐시를 위한 점진적 압축 전략 기반 저랭크 압축 기법 (LoRC) 연구 논문 요약
Zhang, R., Wang, K., Liu, L., Wang, S., Cheng, H., Zhang, C., & Shen, Y. (2024). LORC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy. arXiv preprint arXiv:2410.03111v1.
이 연구는 Transformer 기반 대규모 언어 모델 (LLM)의 Key-Value (KV) 캐시 메모리 사용량을 줄이기 위한 효율적인 압축 방법을 제시하는 것을 목표로 한다.