이 논문은 대규모 언어 모델(LLM)의 효율적인 압축 기술인 LLM Surgeon을 소개한다. LLM은 성능 향상을 위해 점점 더 커지고 있지만, 이로 인해 배포와 사용에 어려움이 있다.
LLM Surgeon은 다음과 같은 핵심 특징을 가지고 있다:
모델의 손실 함수 곡률을 정확하게 근사하기 위해 Kronecker 인자화된 Fisher 정보 행렬을 사용한다. 이를 통해 구조화된 압축을 수행할 수 있다.
가중치 간의 상관관계를 고려하여 가중치 업데이트를 수행한다. 이를 통해 개별 가중치 제거에 비해 더 나은 성능을 달성할 수 있다.
다중 단계 압축 일정을 사용하여 압축 성능을 점진적으로 향상시킨다.
선택적으로 저순위 첫 번째 순서 업데이트를 사용하여 최적화 상태를 유지한다.
실험 결과, LLM Surgeon은 구조화된 압축, 반구조화된 압축, 비구조화된 압축 모두에서 기존 방법들을 능가하는 성능을 보였다. 특히 구조화된 압축의 경우 최대 30%의 압축률에서도 성능 저하가 미미한 것으로 나타났다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究