Durch die Ableitung von metrisierbaren Bedingungen, die ausreichend sind, damit der Diskriminator als Abstand zwischen den Verteilungen dient, entwickeln wir ein neuartiges GAN-Trainingsschema namens Slicing Adversarial Network (SAN), das eine Verbesserung gegenüber herkömmlichen GANs zeigt.
StoryImager ist ein bidirektionales, einheitliches und effizientes Framework, das die Fähigkeit zur Erzeugung von Storyboards aus vortrainierten Text-zu-Bild-Modellen erweitert und verschiedene Aufgaben der Geschichtsvisualisierung und -vervollständigung in einem Modell vereint.
Die Methode Score identity Distillation (SiD) destilliert die generativen Fähigkeiten von vortrainierten Diffusionsmodellen in einen Einstufengenerator, der eine exponentiell schnelle Reduzierung der Fréchet Inception Distanz (FID) während der Destillation ermöglicht und die FID-Leistung der ursprünglichen Lehrerdiffusionsmodelle erreicht oder sogar übertrifft.
Wenn generative Modelle auf einer Mischung aus echten und selbstgenerierten Daten nachtrainiert werden, ist der Prozess stabil, solange der Anteil der echten Daten groß genug ist. Andernfalls kann es zum Modellkollaps kommen.
DGL-GAN ist ein neuartiger und einfacher Ansatz zur Komprimierung von großen Generativen Adversariellen Netzen, der das Wissen des Lehrer-Diskriminators über die Verteilung der echten und synthetischen Bilder nutzt, um den Schüler-Generator zu optimieren.
Durch die Formulierung eines vereinfachten Optimierungsziels für die Diffusions-Schrödinger-Brücke (DSB) können Score-basierte Generative Modelle (SGM) als Initiallösung für DSB verwendet werden. Dies beschleunigt die Konvergenz und verbessert die Leistung von DSB. Darüber hinaus wird eine Reparametrisierungstechnik vorgestellt, die trotz theoretischer Näherungen die Anpassungsfähigkeit des Netzwerks praktisch verbessert.
Durch die Formulierung eines vereinfachten Optimierungsziels für die Diffusions-Schrödinger-Brücke (DSB) können Score-basierte Generative Modelle (SGM) als Initiallösung für DSB verwendet werden, was zu einer beschleunigten Konvergenz und verbesserten Leistung führt. Darüber hinaus wird eine Reparametrisierungstechnik vorgestellt, die trotz theoretischer Näherungen die Anpassungsfähigkeit des Netzwerks praktisch verbessert.
Ein allgemeiner generativer Rahmen, der diverse visuelle Inhalte wie mehrdeutige Bilder, Panoramabilder, Mesh-Texturen und Gaussian-Splat-Texturen durch Synchronisierung mehrerer Diffusionsprozesse erzeugt.
UniHDA ist ein einheitlicher und vielseitiger Rahmen für die generative hybride Domänenanpassung mit multimodalen Referenzen aus mehreren Domänen. Es verwendet den CLIP-Encoder, um multimodale Referenzen in einen einheitlichen Einbettungsraum zu projizieren, und nutzt dann die lineare Interpolation der Richtungsvektoren aus mehreren Zieldomänen, um eine hybride Domänenanpassung zu erreichen. Außerdem führt es einen neuartigen Verlust der domänenübergreifenden räumlichen Struktur ein, um die Konsistenz mit der Quelldomäne zu erhalten.
Konsistenz-Trajektorien-Modelle (CTM) sind eine Verallgemeinerung von Konsistenzmodellen (CM) und Score-basierten Modellen, die eine einzelne neuronale Netzwerkarchitektur trainieren, die sowohl Scores (d.h. Gradienten der Log-Dichte) als auch uneingeschränkte Übergänge entlang der Wahrscheinlichkeitsfluss-ODE-Trajektorie in einem Diffusionsprozess ausgeben kann. CTM ermöglicht die effiziente Kombination von adversarischem Training und Denoising-Score-Matching-Verlust, um die Leistung zu verbessern und neue State-of-the-Art-FIDs für einschrittiges Diffusionsmodell-Sampling auf CIFAR-10 und ImageNet zu erreichen.