YaART ist ein neuartiges, produktionsreifes, kaskadenförmiges Diffusionsmodell für die textgesteuerte Bildgenerierung, das durch Verstärkungslernung mit menschlichem Feedback auf die Präferenzen der Nutzer abgestimmt wurde. Das Modell wurde systematisch auf den Einfluss von Modell- und Datensatzgrößen sowie Datenqualität untersucht, um eine effiziente und hochwertige Bildgenerierung zu erreichen.
Unser Ansatz ermöglicht es Benutzern, den Stil und die Substanz von generierten Bildern feinkörnig zu kontrollieren, indem sie die Führungsgewichtung für verschiedene konzeptuelle Elemente des Eingabetextes anpassen.
Visuelle Autoregressive Modellierung (VAR) ist ein neues Generierungsparadigma, das die autoregressive Bildgenerierung als grob-zu-fein "Vorhersage der nächsten Auflösung" definiert und damit vom üblichen rasterförmigen "Vorhersage des nächsten Tokens" abweicht. Diese einfache, intuitive Methodik ermöglicht es autoregressive Transformatoren, visuelle Verteilungen schnell zu lernen und gut zu verallgemeinern.
Eine neuartige Methode, die drei gezielte Lenkungsstrategien umfasst, um die Hauptursachen von Memorisierung in Diffusionsmodellen zu beseitigen und gleichzeitig die Bildqualität und Textausrichtung zu erhalten.
Eine effektive Lösung für das Dilemma zwischen Wasserzeichenrobustheit und Bildqualität ist es, Wasserzeichen sowohl im Latenzraum einzubetten als auch zu erkennen, und eine schrittweise Trainingsstrategie vorzuschlagen.
Diffusionsmodelle für Bildgenerierung durchlaufen einen Prozess, bei dem zunächst grobe Umrisse und Layout entstehen und dann nach und nach feinere Details hinzugefügt werden.
Wir präsentieren Generative Infinite-Vocabulary Transformers (GIVT), eine einfache Erweiterung von Transformer-Dekodern, die direkt kontinuierliche Vektorsequenzen anstelle diskreter Tokens generieren können. GIVT übertrifft quantisierungsbasierte Ansätze wie VQ-GAN und MaskGIT bei der Bildgenerierung und erreicht wettbewerbsfähige Leistung mit neuesten Latent-Diffusions-Modellen.
Unser Ansatz zur Kanalreduktion in StyleGAN-Generatoren berücksichtigt die Empfindlichkeit der Kanäle gegenüber Änderungen im Latenzraum, um die Diversität der generierten Bilder besser zu erhalten.