Core Concepts
투기적 디코딩과 대조 디코딩을 결합한 새로운 디코딩 방법인 투기적 대조 디코딩(SCD)을 제안하여, 단일 소규모 언어 모델을 활용해 대규모 언어 모델의 추론 속도와 품질을 동시에 향상시킬 수 있음을 보여줌.
Abstract
이 논문에서는 대규모 언어 모델(LLM)의 추론 속도와 품질을 동시에 향상시키기 위해 투기적 대조 디코딩(SCD)이라는 새로운 디코딩 방법을 제안했다.
SCD는 다음과 같은 특징을 가진다:
- 상대적으로 작은 언어 모델(Ma)을 활용하여 추론 속도를 높이는 투기적 디코딩과, 이 Ma와 대규모 언어 모델(Me) 간의 토큰 분포 대조를 통해 품질을 향상시키는 대조 디코딩을 결합한 방법이다.
- 4개의 다양한 벤치마크 과제(WikiText, HumanEval, AlpacaEval, GSM8k)에서 실험을 진행했으며, SCD가 Me 대비 추론 속도와 품질을 모두 향상시킬 수 있음을 보여주었다.
- 토큰 분포 엔트로피 분석을 통해 SCD의 속도와 품질 향상이 양립 가능함을 설명했다.
Stats
저자들은 5개의 주말 수업과 5일 동안 매일 5개의 수업을 진행하여 총 33개의 수업을 한다고 언급했다.
각 수업에는 15명의 학생이 있으며, 학생 1명당 $15.00를 받는다고 했다.
따라서 1주일 동안 총 $7,425.00의 수익을 올린다.
Quotes
"Large language models (LLMs) exhibit ex-
ceptional performance in language tasks, yet
their auto-regressive inference is limited due to
high computational requirements and is sub-
optimal due to the exposure bias."
"Inspired
by speculative decoding and contrastive de-
coding, we introduce Speculative Contrastive
Decoding (SCD), a straightforward yet pow-
erful decoding approach that leverages predic-
tions from smaller language models (LMs) to
achieve both decoding acceleration and quality
improvement."