대규모 언어 모델의 토큰 및 임베딩 투기 모델을 결합하여 생산 환경에서의 추론 속도를 크게 향상시킬 수 있다.
본 연구는 중간 은닉 상태를 예측하고 이를 통해 단일 순방향 전파에서 여러 개의 초안 토큰을 동시에 생성할 수 있는 새로운 병렬 디코딩 방법인 은닉 전이를 제안한다. 이를 통해 기존 자기회귀적 디코딩 방식의 비효율성을 해결하고 대규모 언어 모델의 추론 속도를 크게 향상시킬 수 있다.