拡散トランスフォーマーにおける冗長な計算を削減するため、プロキシトークンを用いた効率的な視覚情報の相互作用メカニズムを提案する。これにより、画像生成や動画生成タスクにおいて、高解像度・長時間の生成が可能になる。