Kernkonzepte
Generative Modelle für offenes visuelles Geschichtenerzählen bieten innovative Möglichkeiten für kreative Bildsequenzen.
Zusammenfassung
Das Paper beschäftigt sich mit dem Einsatz von generativen Modellen für offenes visuelles Geschichtenerzählen. Es stellt das StoryGen-Modell vor, das auf einem neuartigen auto-regressiven Bildgenerierungsansatz basiert. Das Modell ermöglicht die Erzeugung kohärenter Bildsequenzen basierend auf gegebenen Handlungssträngen und vorherigen Bild-Text-Paaren. Es wird eine umfangreiche Datensammlung namens StorySalon vorgestellt, die diverse Charaktere, Handlungsstränge und künstlerische Stile umfasst. Experimente und Evaluationen zeigen die Überlegenheit des StoryGen-Modells in Bezug auf Bildqualität, Konsistenz und visuell-sprachliche Ausrichtung.
Directory:
Einleitung
Ziel: Generatives Modell für visuelles Geschichtenerzählen
Potenzial für Bildung und Kreativität
Verwandte Arbeiten
Fortschritte in der Bildgenerierung
Verwendung von Diffusionsmodellen
Methode
Problemformulierung: Offenes visuelles Geschichtenerzählen
StoryGen-Architektur
Modelltraining
StorySalon-Datensatz
Datenvorbereitungspipeline
Vielfalt der Daten
Experimente
Einstellungen und Baselines
Quantitative und qualitative Bewertung
Ablationsstudien
Schlussfolgerung
Effektivität des StoryGen-Modells
Statistiken
Quantitative Experimente und menschliche Bewertungen haben die Überlegenheit des StoryGen-Modells gezeigt.
StorySalon-Datensatz umfasst 159.778 Animationen mit durchschnittlich 14 Bildern pro Geschichte.
Zitate
"Mirror mirror on the wall, who’s the fairest of them all?" - Grimms’ Fairy Tales