언어 모델 압축

insight - 언어 모델 압축

KV 캐시 활성화가 추론 중 메모리 소비의 주요 요인이 되는 상황에서, 다양한 혁신적인 양자화 기법을 통해 정확도 저하를 최소화하면서도 KV 캐시 크기를 크게 줄일 수 있다.

언어 모델 압축 방법에 따라 하위 그룹 성능이 달라지며, 모델 크기만으로는 하위 그룹 강건성을 설명할 수 없다.

압축 기술이 LLM의 효율성을 높이는 동시에 다양한 신뢰성 측면에서도 영향을 미치는 것을 확인했다. 특히 양자화 기법은 효율성과 신뢰성을 동시에 달성할 수 있는 효과적인 방법으로 나타났다.

본 논문은 BERT 모델 압축을 위한 새로운 가중치 상속 증류(WID) 기법을 제안한다. WID는 추가적인 정렬 손실 없이 교사 모델의 가중치를 직접 상속하여 학생 모델을 학습한다.

사전 훈련된 인코더 기반 언어 모델을 재학습 없이 정확하게 압축하는 방법