본 연구는 대규모 언어 모델의 추론 속도 향상과 메모리 절감을 위해 엔트로피 기반의 N:M 희소성 기법을 제안한다. 이를 통해 모델 정확도 손실을 최소화하면서도 실질적인 가속화와 메모리 절감 효과를 달성할 수 있다.