Hochleistungs-Bildgenerierung mit Diffusion Vision Transformers
Die Autoren stellen ein neues Diffusion-basiertes Bildgenerierungsmodell namens DiffiT vor, das auf Vision Transformers basiert. DiffiT verwendet einen neuartigen zeitabhängigen Selbstaufmerksamkeitsmechanismus (TMSA), um sowohl räumliche als auch zeitliche Abhängigkeiten während des Denoising-Prozesses zu erfassen. DiffiT erzielt state-of-the-art Leistung bei verschiedenen Bildgenerierungsaufgaben auf mehreren Datensätzen.