예측 디코딩은 대규모 언어 모델의 추론 속도를 높이기 위한 유망한 방법으로, 작은 모델을 사용하여 후보 토큰을 생성하고 큰 모델로 검증하는 두 단계 프로세스를 통해 효율성을 향상시킨다.