이 연구는 LLaMA-2-7B 모델을 대상으로 Magnitude Pruning, SparseGPT, Wanda 등 3가지 압축 기술의 영향을 평가했다.
퍼플렉서티 측면에서는 SparseGPT와 Wanda가 50% 압축에서도 원본 모델과 유사한 성능을 보였다. 하지만 실제 작업별 성능 지표인 Exact Match, F1 Score, ROUGE-1에서는 상당한 성능 저하가 관찰되었다. 이는 퍼플렉서티만으로는 압축의 영향을 충분히 포착할 수 없음을 보여준다.
이에 Jensen-Shannon 발산을 새로운 평가 지표로 제안했다. JS 발산은 압축에 따른 모델 출력 분포의 변화를 효과적으로 포착할 수 있으며, GPT-4 평가 결과와도 잘 부합했다. 이는 JS 발산이 압축된 모델의 실제 성능을 더 잘 반영한다는 것을 의미한다.
또한 보정 데이터의 선택이 압축된 모델의 성능에 중요한 영향을 미치는 것으로 나타났다. 작업별 보정 데이터(Alpaca)를 사용한 모델이 일반 보정 데이터(C4)를 사용한 모델에 비해 우수한 성능을 보였다. 특히 SparseGPT의 경우 보정 데이터 선택에 더 민감한 것으로 나타났다.
이 연구는 압축 기술 평가에 있어 퍼플렉서티의 한계를 지적하고, JS 발산과 같은 보다 포괄적인 지표의 필요성을 강조했다. 또한 작업별 보정 데이터 선택이 압축된 모델의 성능에 미치는 중요한 영향을 확인했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문