Conceptos Básicos
지식 증류를 통해 소규모 초안 모델을 대규모 타겟 모델과 더 잘 정렬시킴으로써 투기적 디코딩의 속도를 10-45% 향상시킬 수 있다.
Resumen
이 논문은 대규모 언어 모델의 추론 속도 향상을 위한 방법인 투기적 디코딩(Speculative Decoding, SD)을 소개한다. SD는 소규모 초안 모델을 사용하여 빠르게 토큰을 생성하고, 이를 대규모 타겟 모델로 검증하는 방식이다. 그러나 초안 모델과 타겟 모델의 정렬 정도가 SD의 성능을 좌우한다.
이를 위해 저자들은 지식 증류(Knowledge Distillation, KD)를 활용하여 초안 모델과 타겟 모델의 정렬을 개선하는 DistillSpec 방법을 제안한다. DistillSpec은 두 가지 핵심 설계 선택을 통해 모델 정렬을 향상시킨다:
- 초안 모델에서 생성한 데이터를 사용하여 KD 수행
- 작업과 디코딩 전략에 맞춰 발산 함수 선택
실험 결과, DistillSpec은 다양한 벤치마크에서 표준 SD 대비 10-45%의 속도 향상을 보였다. 또한 다양한 작업에 대한 전이 학습에서도 평균 26%의 속도 향상을 달성했다. 마지막으로 DistillSpec을 손실 있는 SD와 결합하여 지연 시간과 작업 성능 간의 균형을 조절할 수 있음을 보였다.
Estadísticas
투기적 디코딩을 통해 XSum, GSM8K, CNNDM, WMT 데이터셋에서 10-46%의 속도 향상을 달성했다.
23개의 BigBenchHard 작업에서 평균 26%의 속도 향상을 보였다.
대규모 T5-XXL 모델과 소규모 T5-Small 모델을 결합한 경우 7-37%의 속도 향상을 달성했다.
Citas
"DistillSpec yields 10 −45% speedups over standard SD on a range of benchmarks, using both greedy and non-greedy sampling."
"We show that the distilled model can be well transferred to various tasks with an average speedup of 26%."
"Finally, in practical scenarios with models of varying sizes, first using distillation to boost the performance of the target model and then applying DistillSpec to train a well-aligned draft model can reduce decoding latency by 6 −10× with minimal performance drop, compared to standard decoding without distillation."