核心概念
대규모 언어 모델의 깊은 층을 제거해도 성능 저하가 크지 않으며, 이를 통해 모델의 메모리 및 추론 시간을 크게 줄일 수 있다.
摘要
이 연구는 대규모 언어 모델(LLM)의 층 제거 전략을 실험적으로 연구했다. 주요 내용은 다음과 같다:
- 층 유사도 기반 제거 전략: 층 간 표현의 유사도를 측정하여 최적의 제거 층을 찾고, 이를 제거한 후 소량의 fine-tuning으로 성능을 복구한다.
- 성능 분석: 다양한 규모의 LLM 모델에 대해 층 제거 실험을 수행했다. 질문 답변 정확도는 모델 크기에 따라 20-55% 정도의 층을 제거할 때까지 크게 저하되지 않다가 급격히 떨어지는 모습을 보였다. 반면 다음 토큰 예측 손실은 완만하게 증가했다.
- 층 유사도 분석: 깊은 층일수록 인접 층과 표현이 유사한 경향을 발견했다. 이는 깊은 층을 제거해도 성능이 크게 저하되지 않는 이유로 해석된다.
- 단순 제거 전략: 마지막 층을 제외한 가장 깊은 층부터 순차적으로 제거하는 단순 전략도 성능 유지에 효과적임을 보였다.
이 연구 결과는 LLM의 메모리 및 추론 시간을 크게 줄일 수 있는 실용적인 방법을 제시하며, 동시에 LLM의 지식 표현 메커니즘에 대한 통찰을 제공한다.
統計資料
모델 크기가 클수록 더 많은 층을 제거할 수 있다.
질문 답변 정확도는 모델 크기에 따라 20-55% 정도의 층을 제거할 때까지 크게 저하되지 않다가 급격히 떨어진다.
다음 토큰 예측 손실은 층 제거에 따라 완만하게 증가한다.
引述
"The robustness of these LLMs to the deletion of layers implies either that current pretraining methods are not properly leveraging the parameters in the deeper layers of the network or that the shallow layers play a critical role in storing knowledge."
"If the output of each layer does not change too much from layer to layer, then removing terms if the residual contribution from a particular layer is small."