Core Concepts
다양한 크기의 LLM을 저비용으로 배포할 수 있는 any-precision LLM 기술을 제안한다.
Abstract
이 논문은 다양한 크기의 LLM을 저비용으로 배포할 수 있는 any-precision LLM 기술을 소개한다.
최소 비트폭의 seed 모델을 생성한 후, 점진적으로 비트폭을 높여가는 incremental upscaling 기법을 제안한다. 이를 통해 다양한 비트폭의 모델을 생성할 수 있다.
비트플레인 기반의 가중치 표현과 최적화된 GPU 커널을 개발하여, 비트폭에 따른 실제 추론 속도 향상을 달성한다.
실험 결과, 제안 기술은 다양한 LLM 모델과 데이터셋에서 기존 최신 기법과 유사한 성능을 보이면서도 메모리 사용량을 크게 줄일 수 있음을 입증한다.
Stats
3비트 모델 대비 4비트 모델의 Wikitext2 perplexity 증가는 Llama-2-7B에서 0.01, Mistral-7B에서 0.03이다.
4비트 모델 대비 8비트 모델의 Wikitext2 perplexity 증가는 Llama-2-7B와 Mistral-7B에서 0이다.