本論文では、ディフュージョンタスクにおけるトランスフォーマーアーキテクチャの活用について検討している。従来のディフュージョントランスフォーマー(DiT)は、等方的な構造を採用しており、U-Netアーキテクチャを捨象していた。しかし、著者らは潜在空間でのU-Netアーキテクチャの有効性に着目し、簡単な実験を行った結果、U-Netアーキテクチャにはわずかな優位性しかないことを発見した。
そこで著者らは、U-Netバックボーンの特性に着目し、トークンのダウンサンプリングを用いた自己注意機構を提案した。この手法により、DiT-UNetモデルの性能が大幅に向上し、計算コストも大幅に削減された。
さらに著者らは、この発見に基づいて、U型ディフュージョントランスフォーマー(U-DiT)を提案し、大規模な実験を行った。その結果、U-DiTモデルは従来のDiTモデルに比べて大幅な性能向上を示し、同等の計算コストでも優れた結果を出すことができることが明らかになった。特に、U-DiT-Bモデルは、DiT-XL/2モデルの6分の1の計算コストで、その性能を上回ることができた。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yuchuan Tian... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.02730.pdfDeeper Inquiries