DARL unifies visual perception and generation by combining autoregressive and denoising diffusion models, achieving performance comparable to state-of-the-art masked prediction models.
DARL vereint visuelle Wahrnehmung und Generierung in einem Modell, das durch autoregressive und denoising Diffusionsmodelle starke Leistungen erbringt.