핵심 개념
본 연구는 대규모 언어 모델의 추론 속도 향상과 메모리 절감을 위해 엔트로피 기반의 N:M 희소성 기법을 제안한다. 이를 통해 모델 정확도 손실을 최소화하면서도 실질적인 가속화와 메모리 절감 효과를 달성할 수 있다.
초록
본 연구는 대규모 언어 모델(LLM)의 추론 속도 향상과 메모리 절감을 위한 새로운 기법인 엔트로피 기반 N:M 희소성(E-Sparse)을 제안한다.
-
관찰 1: LLM의 채널별 정보 엔트로피가 크게 다르다는 점을 발견했다. 이를 활용하여 가중치 중요도를 평가하는 새로운 지표를 제안했다.
-
관찰 2: 정보가 풍부한 채널들이 인접해 있는 경우가 많다는 점을 발견했다. 이를 해결하기 위해 채널 셔플링 기법을 도입했다.
-
E-Sparse는 정보 엔트로피와 입력 특징 노름을 결합한 새로운 희소성 지표를 제안하고, 채널 셔플링 기법을 통해 N:M 희소성을 효과적으로 달성한다.
-
실험 결과, E-Sparse는 기존 방법 대비 LLaMA 모델에서 최대 1.32 퍼플렉서티 향상, 19.6%-34.8% 추론 가속화, 42.64%-43.52% 메모리 절감 효과를 보였다.
통계
LLaMA-13B 모델에서 2:4 희소성 적용 시 E-Sparse의 퍼플렉서티가 8.26으로, Wanda 9.58, SparseGPT 9.11 대비 각각 1.32, 0.85 향상되었다.
LLaMA-65B 모델에서 4:8 희소성 적용 시 E-Sparse의 퍼플렉서티가 5.09로, Wanda 5.30, SparseGPT 5.38 대비 각각 0.21, 0.29 향상되었다.
인용구
"E-Sparse 는 정보 엔트로피와 입력 특징 노름을 결합한 새로운 희소성 지표를 제안하고, 채널 셔플링 기법을 통해 N:M 희소성을 효과적으로 달성한다."
"실험 결과, E-Sparse는 기존 방법 대비 LLaMA 모델에서 최대 1.32 퍼플렉서티 향상, 19.6%-34.8% 추론 가속화, 42.64%-43.52% 메모리 절감 효과를 보였다."