Core Concepts
Chimera는 이전에 생성된 토큰을 활용하여 후속 단어를 예측하는 경량 초안 모델을 제안하여 정확성과 효율성을 모두 달성한다.
Abstract
이 논문은 대규모 언어 모델(LLM) 추론 가속화를 위한 Chimera 프레임워크를 소개한다. Chimera는 이전에 생성된 토큰을 활용하여 후속 단어를 예측하는 경량 초안 모델을 제안한다. 정확성과 효율성을 보장하기 위해 두 가지 전략을 도입했다:
하단 레이어에서 단기 의존성 포착
원본 LLM에서 제공되는 표현 활용
실험 결과, Chimera는 Vicuna와 LlaMA-2-chat 시리즈에서 자동 회귀 디코딩 대비 평균 2.7배 가속 효과를 달성했다. 이는 Chimera의 디코딩 프로세스 효율성 향상 잠재력을 보여준다.
Stats
자동 회귀 디코딩 대비 Chimera의 평균 가속 비율은 2.7배이다.
Vicuna-33B 모델에서 Chimera는 최대 2.91배의 가속 효과를 달성했다.
Chimera의 평균 수락 길이는 3.32로, 평균 3.3개의 토큰을 한 번의 순방향 전달로 예측할 수 있다.
Quotes
"Chimera는 이전에 생성된 토큰을 활용하여 후속 단어를 예측하는 경량 초안 모델을 제안한다."
"Chimera는 Vicuna와 LlaMA-2-chat 시리즈에서 자동 회귀 디코딩 대비 평균 2.7배 가속 효과를 달성했다."