Główne pojęcia
대규모 언어 모델의 가중치 제거 시 그래디언트 정보를 활용하면 기존 방식보다 우수한 성능을 달성할 수 있다.
Streszczenie
이 논문은 대규모 언어 모델(LLM)의 가중치 제거 방법을 제안한다. 기존 방식은 가중치 크기나 활성화 함수 값만을 고려했지만, 이 논문에서는 사전 학습된 LLM의 그래디언트 정보를 활용하는 새로운 방법을 제안한다.
제안하는 GBLM-Pruner 방법은 다음과 같다:
- 보정 데이터를 이용해 그래디언트와 활성화 함수 값을 계산한다.
- 가중치 크기와 그래디언트 L1/L2 노름의 곱을 가중치 제거 지표로 사용한다.
- 가중치 크기와 활성화 함수 L2 노름의 곱을 추가로 고려할 수 있다.
- 가중치 제거 시 구조적 패턴이 나타나는데, 이는 LLM 가중치 구조의 기하학적 상호 의존성을 반영한다.
실험 결과, GBLM-Pruner는 기존 방식보다 우수한 성능을 보였다. 특히 LLaMA-1과 LLaMA-2 모델에서 두드러진 성능 향상을 확인했다. 또한 비정형 가중치 제거 시에도 구조적 패턴이 나타나는 것을 관찰했다.
Statystyki
LLaMA-2-7B 모델의 50% 가중치 제거 시 퍼플렉서티는 16.03이었지만, GBLM-Pruner를 사용하면 6.86으로 개선되었다.
LLaMA-1-30B 모델의 50% 가중치 제거 시 퍼플렉서티는 7.54였지만, GBLM-Pruner를 사용하면 5.18로 개선되었다.
Cytaty
"GBLM-Pruner 방법은 기존 방식보다 우수한 성능을 보였으며, 특히 LLaMA-1과 LLaMA-2 모델에서 두드러진 성능 향상을 확인했다."
"비정형 가중치 제거 시에도 구조적 패턴이 나타나는 것을 관찰했는데, 이는 LLM 가중치 구조의 기하학적 상호 의존성을 반영한다."