Core Concepts
Shears는 비용 효율적인 희소성과 제안된 신경망 저차원 어댑터 탐색(NLS) 알고리즘을 통해 PEFT 접근법의 효율성을 향상시킬 수 있다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 효율적인 압축과 미세 조정을 위한 Shears라는 새로운 접근법을 소개한다.
Shears는 다음의 3단계로 구성된다:
비구조적 희소화: Wanda 알고리즘을 사용하여 LLM의 가중치에 희소성을 도입한다.
슈퍼 어댑터 학습: 희소화된 모델에 탄력적인 저차원 어댑터를 도입하고 NLS(신경망 저차원 어댑터 탐색)를 적용하여 슈퍼 어댑터 네트워크를 학습한다.
서브 어댑터 탐색: 휴리스틱 전략과 힐클라이밍 알고리즘을 사용하여 최적의 서브 어댑터 구성을 찾는다.
실험 결과, Shears는 기존 PEFT 접근법과 비교하여 높은 수준의 희소성을 유지하면서도 성능 저하가 적거나 오히려 향상되는 것을 보여준다. 또한 Shears는 단일 GPU에서 몇 시간 내에 학습할 수 있어 효율적이다.
Stats
희소화된 LLaMA7B 모델은 원본 모델 대비 1.91배 더 적은 비영(非零) 매개변수를 가진다.
희소화된 LLaMA13B 모델은 원본 모델 대비 1.94배 더 적은 비영(非零) 매개변수를 가진다.
Quotes
"Shears는 모델 압축과 PEFT를 결합한 실용적인 솔루션을 제공한다."
"Shears는 비용 효율적인 희소성과 제안된 신경망 저차원 어댑터 탐색(NLS) 알고리즘을 통해 PEFT 접근법의 효율성을 향상시킬 수 있다."