대형 언어 모델의 크기가 증가함에 따라 추론 비용이 심각한 문제가 되고 있다. 본 연구에서는 모델 압축 기법을 통해 대형 언어 모델의 성능을 유지하면서도 추론 비용을 줄이는 방법을 제안한다.