이 논문은 대규모 언어 모델(LLM)의 추론 효율성 향상을 위해 투기적 실행 기법을 소개한다. LLM은 자기회귀적 특성으로 인해 토큰을 순차적으로 생성해야 하므로 지연 시간이 큰 문제가 된다. 투기적 실행은 이를 해결하기 위해 제안된 기법으로, 토큰 생성을 두 단계로 나누어 수행한다.
첫 번째 단계에서는 작은 모델을 사용하여 토큰 시퀀스를 빠르게 생성하는 "초안 작성" 단계를 거친다. 두 번째 단계에서는 이 초안 토큰 시퀀스를 대상 LLM 모델로 병렬 검증하는 "검증" 단계를 수행한다. 이를 통해 순차적 토큰 생성 과정을 병렬화할 수 있어 디코딩 속도가 크게 향상된다.
이 논문에서는 투기적 실행 기법의 전반적인 프레임워크와 구성 요소들을 체계적으로 정리하고, 기존 연구들을 분석 및 비교한다. 또한 이 분야의 주요 과제와 향후 발전 방향을 제시한다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Chen Zhang,Z... klo arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.14897.pdfSyvällisempiä Kysymyksiä