탠덤 트랜스포머 아키텍처는 대규모 언어 모델의 자기회귀적 생성 과정에서 발생하는 비효율성을 해결하기 위해 제안되었다. 이는 작은 자기회귀 모델과 큰 블록 기반 모델을 결합하여 추론 속도를 높이면서도 성능 저하를 최소화한다.