핵심 개념
본 논문에서는 대규모 언어 모델(LLM)의 레이어 중복성을 기반으로 동적으로 레이어를 슬라이싱하여 모델 크기를 줄이는 새로운 기법을 제시하며, 이를 통해 성능 저하 없이 LLM의 효율성을 향상시킬 수 있음을 보여줍니다.
초록
LLM 모델 압축을 위한 동적 슬라이싱 기법 소개
본 연구 논문에서는 대규모 언어 모델(LLM)의 효율적인 배포를 위한 새로운 모델 압축 접근 방식을 소개합니다. 본 논문에서 제안하는 동적 레이어별 가지치기 기법은 SliceGPT에서 확립된 기존 방법론을 향상시킨 것입니다.
기존의 고정 슬라이싱에서 동적 슬라이싱으로 전환함으로써, 본 연구에서는 새롭게 제안된 레이어 중복성(LR) 점수를 활용합니다. LR 점수는 각 레이어의 입력과 출력 간의 코사인 유사성을 측정하여 각 레이어가 입력을 얼마나 변경하는지 평가합니다. 본 연구에서는 이 점수를 사용하여 모든 레이어에 대한 평균 가지치기 비율이 고정 값이 되도록 중복성에 따라 개별 레이어의 일부를 가지치기합니다. Llama3-8B 및 Mistral-7B와 같은 모델을 사용하여 여러 데이터 세트에서 광범위한 실험을 수행하여 효율성과 성능의 균형을 맞추는 최적의 구성을 결정하기 위해 다양한 슬라이싱 기준과 비율을 평가했습니다.
연구 결과, 동적 슬라이싱 접근 방식이 고정 슬라이싱 방법에 비해 모델 성능을 유지할 뿐만 아니라 많은 경우 향상시키는 것으로 나타났습니다. 예를 들어, 여러 설정에서 SliceGPT 기준선에 비해 최대 5%의 성능 향상을 확인했습니다. 또한 여러 벤치마크에서 최대 7%의 perplexity 감소가 관찰되어 본 방법의 효과를 입증했습니다. 코드, 모델 가중치 및 데이터 세트는 https://github.com/RazvanDu/DynamicSlicing에서 오픈 소스로 제공됩니다.