본 논문은 확산 모델과 비전 트랜스포머의 강력한 모델링 능력을 결합하여 새로운 확산 비전 트랜스포머(DiffiT) 모델을 제안한다. DiffiT는 시간 의존적 멀티헤드 자기 주의 메커니즘(TMSA)을 도입하여 공간적 및 시간적 의존성을 효과적으로 모델링하고, 이를 통해 매개변수 효율성이 크게 향상된다. DiffiT는 다양한 이미지 생성 작업에서 최첨단 성능을 달성한다.