본 연구는 대규모 언어 모델(LLM)의 추론 속도 향상과 메모리 절감을 위한 새로운 기법인 엔트로피 기반 N:M 희소성(E-Sparse)을 제안한다.
관찰 1: LLM의 채널별 정보 엔트로피가 크게 다르다는 점을 발견했다. 이를 활용하여 가중치 중요도를 평가하는 새로운 지표를 제안했다.
관찰 2: 정보가 풍부한 채널들이 인접해 있는 경우가 많다는 점을 발견했다. 이를 해결하기 위해 채널 셔플링 기법을 도입했다.
E-Sparse는 정보 엔트로피와 입력 특징 노름을 결합한 새로운 희소성 지표를 제안하고, 채널 셔플링 기법을 통해 N:M 희소성을 효과적으로 달성한다.
실험 결과, E-Sparse는 기존 방법 대비 LLaMA 모델에서 최대 1.32 퍼플렉서티 향상, 19.6%-34.8% 추론 가속화, 42.64%-43.52% 메모리 절감 효과를 보였다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Yun Li,Lin N... às arxiv.org 03-25-2024
https://arxiv.org/pdf/2310.15929.pdfPerguntas Mais Profundas