본 논문은 대규모 언어 모델(LLM)의 압축을 위한 새로운 훈련 없는 접근법을 소개한다. 기존의 저차원 행렬 분해 기법은 LLM에 효과적이지 않은데, 이는 LLM 활성화의 이상치 현상과 다양한 레이어의 민감도 차이로 인한 문제 때문이다.
이를 해결하기 위해 저자들은 활성화 인식 특이값 분해(ASVD)와 민감도 기반 절단 계수 탐색(STRS) 기법을 제안한다. ASVD는 활성화 분포를 고려하여 가중치 행렬을 조정함으로써 분해 정확도를 높인다. STRS는 각 레이어의 민감도를 평가하여 최적의 절단 계수를 결정한다.
실험 결과, ASVD는 LLaMA 및 LLaMA-2 모델에서 10-20%의 압축률로 성능 저하 없이 압축할 수 있음을 보여준다. 또한 ASVD를 활용하여 KV 캐시 압축을 수행할 수 있으며, 이를 통해 최대 50%의 메모리 사용량 감소를 달성할 수 있다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Zhihang Yuan... ב- arxiv.org 09-19-2024
https://arxiv.org/pdf/2312.05821.pdfשאלות מעמיקות