拡散モデルの強力な表現力と高品質なサンプル生成能力を活用し、ビジョントランスフォーマーの優れたモデリング能力とスケーラビリティを組み合わせた新しいモデル「DiffiT」を提案する。時間依存型マルチヘッド自己注意機構(TMSA)を導入し、空間的および時間的依存関係を効果的にモデル化することで、高品質な画像生成を実現する。