本論文では、拡散トランスフォーマーにおける冗長な計算を削減するため、プロキシトークンを用いた効率的な視覚情報の相互作用メカニズムを提案する「Proxy Token Diffusion Transformer (PT-DiT)」を紹介する。
具体的には以下の通り:
入力画像/動画をパッチ埋め込みし、時空間的な関係を保ちながらトークン系列を生成する。
各時空間ウィンドウからランダムにプロキシトークンを抽出し、これらのプロキシトークン間の自己注意メカニズムを用いて、効率的にグローバルな視覚情報を捉える。
得られたグローバル情報をすべてのトークンに伝播させるため、プロキシトークンとの交差注意メカニズムを導入する。
さらに、ウィンドウ注意とシフトウィンドウ注意を組み合わせることで、局所的な詳細情報のモデル化を強化する。
この設計により、PT-DiTは画像生成と動画生成の両タスクに適用可能となり、大幅な計算量の削減を実現しつつ、高品質な生成結果を達成できる。
実験結果から、PT-DiTは既存手法と比べて、同等のパラメータ規模で52%の計算量削減を実現し、動画生成タスクでは既存手法の77.2%の計算量で同等の性能を示すことが分かった。さらに、2048x2048の高解像度画像や512x512x288の動画フレームを、64GB Ascend 910Bのリソースで学習できることが確認された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問