NeuZip이라는 새로운 신경망 압축 기술을 사용하면 훈련 및 추론 중에 메모리 사용량을 크게 줄이면서도 성능 저하 없이 대규모 언어 모델을 훈련하고 배포할 수 있습니다.
선형 레이어 구성을 통해 저순위 특성을 유도하고 특이값 절단을 통해 압축하는 새로운 접근법을 제안한다. 이를 통해 사전 학습된 모델을 필요로 하지 않고도 효과적인 압축이 가능하다.
본 연구에서는 신경망의 변분 매개변수를 지수적으로 적은 매개변수를 가진 자동 미분 가능한 텐서 네트워크(ADTN)로 인코딩하여 크게 압축하는 일반적인 압축 방법을 제안합니다.
확률적 잠재 공간을 활용한 신경망 압축의 이론적 설명