Core Concepts
대규모 언어 모델의 토큰 및 임베딩 투기 모델을 결합하여 생산 환경에서의 추론 속도를 크게 향상시킬 수 있다.
Abstract
이 기술 보고서는 대규모 언어 모델의 추론 속도를 가속화하기 위한 새로운 투기 디코딩 초안 모델의 설계와 학습에 대해 설명한다.
핵심 내용은 다음과 같다:
- 컨텍스트 벡터와 샘플링된 토큰을 모두 활용하여 투기자 모델의 예측 품질을 크게 향상시킬 수 있다.
- 투기자 모델을 기반 모델의 입력 행동과 출력 행동에 맞춰 효율적으로 학습시키는 2단계 학습 방식을 소개한다.
- 이러한 투기자 모델 학습 파이프라인을 통해 4개의 고도로 최적화된 생산 언어 모델을 2-3배 가속화할 수 있다.
- 생산 환경에서 투기적 디코딩의 한계를 탐구하여, 기준 계산 및 효율성 수준이 높아질수록 약속된 속도 향상이 감소함을 보여준다.
- 향후 연구 방향을 제시한다.
Stats
기준 Llama2-7B 모델의 토큰당 지연 시간은 10.54ms로, 94.9토큰/초의 처리량을 보인다.
투기자 모델을 사용하면 프롬프트 길이 64, 배치 크기 1, 4개의 후보 토큰을 동시에 평가할 때 약 2배의 속도 향상을 달성할 수 있다.
Codellama-13B-instruct 모델의 경우 투기자 모델을 사용하면 5.51ms/토큰, 181.5토큰/초의 처리량을 달성할 수 있다.
Granite-20B 모델에서도 유사한 수준의 3배 속도 향상을 관찰할 수 있다.
Quotes
"Well-known models such as Llama2-13B contain 13 billion parameters, occupying roughly 24 Gb in memory using typical 16-bit weight representations. At inference time, this substantial computational mass is devoted entirely toward producing one single token index at a time, in the range 0 to 32k. Thus in the extreme case, we are incurring a 24 gigabyte overhead to produce less than 2 bytes of information!"
"An obvious way to rectify this imbalance would be to predict multiple tokens at a time. Indeed, classical NLP theory has proven that even a simple 2/3-gram language model has great predictive capability, which tells us that learned language models should be capable of predicting more than one token at a time with a reasonable accuracy."