Core Concepts
대형 언어 모델의 레이어 중 중요도가 낮은 레이어를 식별하고 제거하여 모델 크기를 줄이는 동시에 성능 저하를 최소화하는 방법을 제안한다.
Abstract
이 연구는 대형 언어 모델(LLM)의 압축 기법을 제안한다. LLM은 다양한 자연어 처리 작업에 널리 사용되지만, 모델 크기가 크기 때문에 하드웨어 요구 사항이 높아 실제 배포에 어려움이 있다.
연구진은 LLM의 레이어 간 은닉 상태 변화 정도를 분석하여 중요도가 낮은 레이어를 식별하였다. 이를 바탕으로 LLM-Streamline이라는 압축 기법을 제안했다. LLM-Streamline은 두 단계로 구성된다:
레이어 프루닝: 중요도가 낮은 연속 레이어를 제거한다.
레이어 대체: 제거된 레이어를 경량 모델(MLP)로 대체하여 성능 저하를 완화한다.
실험 결과, LLM-Streamline은 기존 최신 기법들보다 우수한 성능을 보였다. 7B 파라미터 모델에서 25% 프루닝 시 분류 과제에서 92%, 생성 과제에서 68%의 성능을 유지할 수 있었다.
또한 다양한 경량 모델과 학습 데이터 양에 따른 성능 변화를 분석하였다. 단일 MLP 모델이 가장 효과적이며, 학습 데이터 양이 20,000개 정도일 때 최적의 성능을 보였다.
Stats
7B 파라미터 모델에서 25% 프루닝 시 분류 과제에서 92%, 생성 과제에서 68%의 성능을 유지할 수 있었다.
1.3B 파라미터 모델에서 15-20% 프루닝 시 92%, 2.7B 모델에서 96%의 성능을 유지할 수 있었다.
Quotes
"대형 언어 모델(LLM)은 다양한 자연어 처리 작업에 널리 사용되지만, 모델 크기가 크기 때문에 하드웨어 요구 사항이 높아 실제 배포에 어려움이 있다."
"연구진은 LLM의 레이어 간 은닉 상태 변화 정도를 분석하여 중요도가 낮은 레이어를 식별하였다."
"LLM-Streamline은 레이어 프루닝과 레이어 대체의 두 단계로 구성되며, 기존 최신 기법들보다 우수한 성능을 보였다."