Ranni ist ein neuer Ansatz, der bestehende Diffusionsmodelle zähmt, um Anweisungen zum Malen und Bearbeiten besser zu befolgen. Das semantische Panel in Ranni dient als generatives Zwischenglied zwischen Text und Bild. Es hilft, den Druck zu lindern, komplexe Eingabeaufforderungen direkt in Bilder umzusetzen.
Das Panel wird zunächst mit visuellen Konzepten erstellt, die von einem großen Sprachmodell (LLM) aus der gegebenen Eingabeaufforderung geparst werden. Es dient dann als Steuersignal, um die Generierung der Diffusionsmodelle zu ergänzen. Ranni folgt Malanleitungen, ohne detaillierte Beschreibungen einzelner Konzepte in der Eingabeaufforderung zu ignorieren.
Darüber hinaus ermöglicht das Anpassen des semantischen Panels mit manuellen oder LLM-basierten Operationen das interaktive Bearbeiten zuvor generierter Bilder. Wir zeigen, dass Ranni mit der vollautomatischen Kontrolle von LLM Potenzial als flexibles, chatbasiertes Bildgenerierungssystem hat, bei dem jedes bestehende Diffusionsmodell als Generator für die interaktive Generierung eingebunden werden kann.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yutong Feng,... um arxiv.org 04-10-2024
https://arxiv.org/pdf/2311.17002.pdfTiefere Fragen