Kernekoncepter
대규모 언어 모델의 느린 추론 속도와 높은 계산 및 메모리 요구사항을 해결하기 위해 지식 증류 기반 양자화 기법을 제안하고, 신호 전파 분석을 통해 취약점을 파악하여 성능을 향상시킴.
Statistik
대규모 언어 모델은 느린 추론 속도와 높은 계산 및 메모리 요구사항으로 인해 엣지 디바이스에 배포하기 어려움.
지식 증류 기반 양자화 기법(KD-QAT)을 통해 4비트 가중치 양자화된 대규모 언어 모델의 성능을 향상시킬 수 있음.
다중 헤드 자기 주의 모듈에서 o-projection과 v-projection 레이어가 저비트 양자화에 더 민감함.
ov-freeze 기법을 통해 KD-QAT 훈련 과정을 안정화하고, LLaMAv2-Chat 모델의 4비트 양자화 버전이 Commonsense Reasoning 벤치마크에서 FP16 모델 대비 0.7% 미만의 정확도 손실을 달성함.
Citater
"Large generative models, such as large language models (LLMs) and diffusion models have as revolutionized the fields of NLP and computer vision respectively. However, their slow inference, high computation and memory requirement makes it challenging to deploy them on edge devices."
"To improve this paradigm of finetuning, as main contributions, we provide insights into stability of KD-QAT by empirically studying the gradient propagation during training to better understand the vulnerabilities of KD-QAT based approaches to low-bit quantization errors."
"Based on our insights, we propose ov-freeze, a simple technique to stabilize the KD-QAT process. Finally, we experiment with the popular 7B LLaMAv2-Chat model at 4-bit quantization level and demonstrate that ov-freeze results in near float-point precision performance, i.e., less than 0.7% loss of accuracy on Commonsense Reasoning benchmarks."