Belangrijkste concepten
본 연구는 대규모 언어 모델의 성능 저하를 최소화하면서도 효율적으로 가지치기할 수 있는 블록 단위 매개변수 효율적 희소성 할당(BESA) 기법을 제안한다.
Samenvatting
본 연구는 대규모 언어 모델(LLM)의 압축을 위한 새로운 기법인 BESA(Blockwise Parameter-Efficient Sparsity Allocation)를 제안한다.
기존의 레이어 단위 가지치기 기법들은 레이어 단위 출력 복원 오차를 최소화하는 방식으로 진행되었다. 이는 레이어 간 오차가 누적되어 전체 모델 성능 저하로 이어질 수 있다는 문제가 있었다.
이에 반해 BESA는 블록 단위 출력 복원 오차를 최소화하는 방식으로 가지치기를 수행한다. 또한 각 레이어의 최적 희소성을 학습하는 매개변수 효율적 기법을 도입하여, 레이어 간 희소성 분포를 최적화한다.
실험 결과, BESA는 기존 기법 대비 우수한 성능을 보였다. LLaMA-7/13/30/65B와 LLaMA2-7/13/70B 모델에 대해 50% 희소성을 달성하면서도 우수한 퍼플렉서티와 제로샷 성능을 보였다. 또한 BESA는 가지치기와 양자화를 동시에 최적화할 수 있어, 실제 하드웨어 가속기에서의 성능 향상도 확인되었다.
Statistieken
LLaMA-7/13/30/65B와 LLaMA2-7/13/70B 모델에 대해 50% 희소성 달성
LLaMA-65B 모델의 경우 5시간 내에 50% 희소성 달성 가능
Citaten
"기존의 레이어 단위 가지치기 기법들은 레이어 단위 출력 복원 오차를 최소화하는 방식으로 진행되었다. 이는 레이어 간 오차가 누적되어 전체 모델 성능 저하로 이어질 수 있다는 문제가 있었다."
"BESA는 블록 단위 출력 복원 오차를 최소화하는 방식으로 가지치기를 수행한다. 또한 각 레이어의 최적 희소성을 학습하는 매개변수 효율적 기법을 도입하여, 레이어 간 희소성 분포를 최적화한다."