FASTDECODE는 GPU와 CPU를 효과적으로 활용하여 대규모 언어 모델의 토큰 생성 처리량을 크게 향상시킨다. 모델을 메모리 집약적인 부분과 계산 집약적인 부분으로 분리하여, 전자는 CPU에서, 후자는 GPU에서 처리함으로써 전체 시스템의 성능을 극대화한다.