이 논문은 대규모 언어 모델(LLM)의 가중치 제거 방법을 제안한다. 기존 방식은 가중치 크기나 활성화 함수 값만을 고려했지만, 이 논문에서는 사전 학습된 LLM의 그래디언트 정보를 활용하는 새로운 방법을 제안한다.
제안하는 GBLM-Pruner 방법은 다음과 같다:
실험 결과, GBLM-Pruner는 기존 방식보다 우수한 성능을 보였다. 특히 LLaMA-1과 LLaMA-2 모델에서 두드러진 성능 향상을 확인했다. 또한 비정형 가중치 제거 시에도 구조적 패턴이 나타나는 것을 관찰했다.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Rocktim Jyot... ที่ arxiv.org 04-10-2024
https://arxiv.org/pdf/2311.04902.pdfสอบถามเพิ่มเติม