Core Concepts
대형 언어 모델의 효율적인 배포와 압축을 위해 기존 성능 지표의 한계를 극복하는 새로운 토큰 기반 지표를 제안한다. 이를 통해 모델 구성 요소별 성능 저하를 정확히 측정하고, 효과적인 압축 전략을 수립할 수 있다.
Abstract
이 연구는 대형 언어 모델(LLM)의 압축을 위한 새로운 접근법인 다양한 토큰 지표(DTM)를 소개한다. DTM은 기존 perplexity나 정확도 지표의 한계를 극복하고, 실제 텍스트 생성 과정에서의 모델 성능 저하를 정확히 측정할 수 있다.
주요 내용은 다음과 같다:
- 첫 번째 다양한 토큰 지표(FDTM)와 다양한 토큰 비율 지표(SDTM)를 제안하여 perplexity 지표의 한계를 극복한다.
- FDTM을 활용한 모델 스파스화 실험에서 Llama-2 모델 계열의 25%의 주의 집중 구성 요소를 90% 이상 제거할 수 있음을 보여준다.
- FDTM을 통해 모델 양자화 시 80% 이상의 매개변수를 int8로 변환할 수 있음을 확인한다.
- 이를 통해 모델 구성 요소별 최적의 압축 방법을 선택할 수 있음을 입증한다.
Stats
대형 언어 모델의 매개변수 수가 0.5조 개를 초과하고 있다.
주의 집중 메커니즘의 경우 일부 헤드가 추론 과정을 지배하는 것으로 나타났다.
Quotes
"기존 지표는 너무 거칠게 평균화하거나 너무 구체적이어서, 압축 초기에 발생하는 성능 저하의 미묘한 차이를 포착하지 못한다."
"실제 토큰 생성 과정을 반영하지 않는다는 점에서 부적절하다."