이 논문은 대규모 언어 모델(LLM)의 비효율적인 디코딩 문제를 해결하기 위해 Clover라는 새로운 투기적 디코딩 알고리즘을 제안한다.
Clover의 주요 특징은 다음과 같다:
순차적 지식 활용: Clover는 이전에 예측된 토큰의 순차적 정보를 활용하여 현재 토큰을 예측하는 회귀적 연결 메커니즘을 도입한다. 이를 통해 투기적 예측의 정확도를 높일 수 있다.
주의 집중 디코더: Clover는 이전에 예측된 토큰의 임베딩 벡터와 현재 입력 문장의 은닉 상태를 결합하는 주의 집중 디코더를 사용한다. 이를 통해 입력 문장 전체의 정보와 이전 예측 토큰의 정보를 통합할 수 있다.
증강 블록: Clover는 대상 모델의 마지막 변환 블록에 추가 변환 블록을 붙여 입력 문장의 특징을 증강시킨다. 이를 통해 투기적 예측기의 정확도를 향상시킬 수 있다.
실험 결과, Clover는 Baichuan 모델 패밀리에서 기존 방법 대비 최대 2.56배의 처리량 향상과 최대 1.43배의 투기적 예측 정확도 향상을 달성했다. 특히 후반부 예측기에서 20% 이상의 큰 정확도 향상을 보였다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究