이 논문은 대규모 언어 모델(LLM)의 가중치 제거 방법을 제안한다. 기존 방식은 가중치 크기나 활성화 함수 값만을 고려했지만, 이 논문에서는 사전 학습된 LLM의 그래디언트 정보를 활용하는 새로운 방법을 제안한다.
제안하는 GBLM-Pruner 방법은 다음과 같다:
실험 결과, GBLM-Pruner는 기존 방식보다 우수한 성능을 보였다. 특히 LLaMA-1과 LLaMA-2 모델에서 두드러진 성능 향상을 확인했다. 또한 비정형 가중치 제거 시에도 구조적 패턴이 나타나는 것을 관찰했다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Rocktim Jyot... alle arxiv.org 04-10-2024
https://arxiv.org/pdf/2311.04902.pdfDomande più approfondite