Der Kern der Arbeit ist die Entwicklung eines neuartigen generativen Modells, das einen bedingten Energiebasierten Modell (EBM) zur Verbesserung des Variationsautoenkodierens (VAE) verwendet, um schärfere generierte Bilder ohne zusätzliche Kosten für MCMC-Sampling während der Testzeit zu erzeugen.
Durch die Einführung eines zusätzlichen Maskenpromots kann die Beziehung zwischen Vorder- und Hintergrund besser modelliert und so eine höhere Bildqualität erzielt werden.
Diffusions-RWKV ist eine Variante von RWKV-ähnlichen Modellen, die für Bildgenerierungsaufgaben entwickelt wurde. Das Modell nutzt eine Bi-RWKV-Architektur, um die Vorteile von RWKV-Modellen wie effiziente Verarbeitung langer Sequenzen auf visuelle Daten zu übertragen.
Das FairRAG-Rahmenwerk nutzt externe Referenzbilder, um die Vielfalt demografischer Gruppen in der Bildgenerierung zu verbessern.
Unser Modell kann beliebig viele miteinander verbundene Bilder in einer autoregressiven Art und Weise generieren, indem es den Stil und den Inhalt aus vorherigen Bildern erfasst und neue Bilder entsprechend erzeugt.
Die Autoren stellen ein neues Diffusion-basiertes Bildgenerierungsmodell namens DiffiT vor, das auf Vision Transformers basiert. DiffiT verwendet einen neuartigen zeitabhängigen Selbstaufmerksamkeitsmechanismus (TMSA), um sowohl räumliche als auch zeitliche Abhängigkeiten während des Denoising-Prozesses zu erfassen. DiffiT erzielt state-of-the-art Leistung bei verschiedenen Bildgenerierungsaufgaben auf mehreren Datensätzen.
Eine Technik namens "Upsample Guidance" ermöglicht es, Diffusionsmodelle ohne zusätzliches Training auf höhere Auflösungen zu skalieren, indem nur ein einzelner Term in den Sampling-Prozess eingefügt wird.
ElasticDiffusion ermöglicht die Generierung hochqualitativer Bilder beliebiger Größen durch Trennung von globalem und lokalem Inhalt, ohne zusätzliches Training des Diffusionsmodells.
Eine Methode zur Verringerung von Intersektionalem Bias in Text-zu-Bild-Diffusionsmodellen durch disentanglierte Anpassung der Kreuzaufmerksamkeit.
Die vorgeschlagene Methode PRDP ermöglicht erstmals eine stabile Belohnungsoptimierung für Diffusionsmodelle auf großen Datensätzen mit über 100.000 Prompts, was zu einer deutlich verbesserten Bildqualität auf komplexen, unbekannten Prompts führt.