대형 언어 모델의 추론 속도와 에너지 효율성을 높이기 위해 보조 모델을 활용한 다중 토큰 결합 디코딩 기법을 제안한다.
대형 언어 모델의 추론 과정을 의미론적으로 정렬된 특수 토큰으로 압축하여 추론 속도를 높이고 성능을 향상시킬 수 있다.