Core Concepts
대규모 언어 모델의 복잡한 다층 디코더 구조에 적응적으로 대응하여 정확도와 중요도 추정을 향상시키는 데이터 기반 융합 접근법을 제안한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 효율적인 배포를 위한 구조적 가지치기 기법을 소개한다. LLM은 많은 응용 분야에서 중요해졌지만 그 규모와 복잡성이 전례 없는 수준에 도달했다. 이러한 문제를 해결하기 위해 저자들은 다음과 같은 접근법을 제안한다:
발견 단계: LLM 내부의 종속 관계를 탐색하여 상호 의존적인 구조 그룹을 식별한다.
추정 단계: 각 하위 구조의 중요도를 평가하기 위해 코스 그레인드와 파인 그레인드 추정 방법을 적응적으로 융합한다. 이를 통해 복잡한 다층 디코더 구조에 효과적으로 대응할 수 있다.
복구 단계: 제한된 데이터로 모델을 빠르게 복구하기 위해 저랭크 근사화를 사용한다.
실험 결과, 제안된 방법은 LLaMa-7B, Vicuna-7B, Baichuan-7B, Bloom-7b1 등 주요 데이터셋에서 기존 최신 방법 대비 각각 1.1%, 1.02%, 2.0%, 1.2%의 정확도 향상을 달성했다.
Stats
제안된 방법은 LLaMa-7B 모델에서 자기 주의 블록의 매개변수를 18.75% 줄이고 MAC을 18.74% 줄였다.
제안된 방법은 LLaMa-7B 모델에서 MLP 블록의 매개변수를 20% 줄이고 MAC을 20% 줄였다.
제안된 방법은 Vicuna-7B 모델에서 약 1.82배 더 빠른 지연 시간을 달성했다.
Quotes
"LLM-Pruner는 각 디코더 레이어에 대해 일반적인 추정 방법을 사용하지만, 평가 기준과 구조 간의 관계를 고려하지 않는다. 이는 다른 레이어의 구조를 평가하는 데 어려움을 초래한다."
"우리의 작업은 코스 그레인드 추정 기준과 파인 그레인드 추정 기준을 적응적으로 융합하는 간단하지만 효율적인 방법을 제안한다."