核心概念
SVD-LLM은 대규모 언어 모델 압축을 위한 새로운 특이값 분해 기반 방법론으로, 압축 손실을 최소화하는 데이터 화이트닝 기법과 압축 후 모델 파라미터 업데이트 기법을 제안한다.
摘要
본 논문은 대규모 언어 모델(LLM)의 압축을 위한 새로운 특이값 분해(SVD) 기반 방법론인 SVD-LLM을 제안한다.
기존 SVD 기반 LLM 압축 방법들은 두 가지 한계를 가지고 있다: 1) 작은 특이값 truncation이 높은 압축 손실을 초래할 수 있다는 점, 2) SVD truncation 후 나머지 모델 파라미터 업데이트가 부족하다는 점.
SVD-LLM은 이러한 한계를 해결하기 위해 다음과 같은 두 가지 핵심 기술을 제안한다:
- 압축 손실과 직접적인 관계를 가지는 truncation-aware 데이터 화이트닝 기법
- 압축 후 정확도 저하를 보상하기 위한 레이어 단위 폐쇄형 모델 파라미터 업데이트 기법
실험 결과, SVD-LLM은 기존 SVD 기반 방법들에 비해 전반적으로 우수한 성능을 보였으며, 특히 높은 압축 비율에서 큰 성능 향상을 달성했다. 또한 SVD-LLM은 다른 LLM 압축 기법들의 성능을 더욱 향상시킬 수 있으며, KV 캐시 압축에도 활용될 수 있다.
统计
대규모 언어 모델 GPT-3는 325GB의 GPU 메모리를 소비하며, 5개의 80GB A100 GPU가 필요하다.
기존 SVD 기반 LLM 압축 방법들은 압축 비율이 높아질수록 큰 정확도 저하를 겪는다. 예를 들어 LLaMA-7B를 ASVD로 40% 압축하면 perplexity가 28배 증가한다.
引用
"The advancements in Large Language Models (LLMs) have been hindered by their substantial sizes, which necessitate LLM compression methods for practical deployment."
"Singular Value Decomposition (SVD) offers a promising solution for LLM compression. However, state-of-the-art SVD-based LLM compression methods have two key limitations: truncating smaller singular values may lead to higher compression loss, and the lack of update on the remaining model parameters after SVD truncation."