Generative Infinite-Vocabulary Transformers: Effiziente Bildgenerierung ohne Quantisierung
Wir präsentieren Generative Infinite-Vocabulary Transformers (GIVT), eine einfache Erweiterung von Transformer-Dekodern, die direkt kontinuierliche Vektorsequenzen anstelle diskreter Tokens generieren können. GIVT übertrifft quantisierungsbasierte Ansätze wie VQ-GAN und MaskGIT bei der Bildgenerierung und erreicht wettbewerbsfähige Leistung mit neuesten Latent-Diffusions-Modellen.