Der Artikel stellt DiffStyler, einen neuartigen Ansatz für den diffusionsbasierten lokalisierten Bildstiltransfer, vor. Der Kern des Ansatzes liegt in der Nutzung von LoRA, um die Attribute eines einzelnen Stilziels zu erlernen, und der anschließenden Steuerung des Bildgenerierungsprozesses durch Feature- und Aufmerksamkeitseinspritzung.
Zunächst wird eine Analyse der räumlichen Merkmale in verschiedenen LoRA-integrierten Diffusionsmodellen durchgeführt, die zeigt, dass diese eine hohe semantische Konsistenz aufweisen. Basierend auf dieser Erkenntnis schlägt der Artikel vor, Merkmale aus dem Generierungsprozess des Inhaltbildes in das LoRA-integrierte Modell für das Stilbild einzuspeisen, zusammen mit Aufmerksamkeitssteuerung. Darüber hinaus wird ein Verfahren zur maskenbezogenen Fusion von Merkmalen während des Entrauschensprozesses vorgeschlagen, um einen lokalisierten Bildstiltransfer zu ermöglichen.
Die Ergebnisse zeigen, dass DiffStyler die derzeitigen State-of-the-Art-Methoden übertrifft und ein besseres Gleichgewicht zwischen der Erhaltung der Inhaltssemantik und der Integration von Stilattributen erreicht. Darüber hinaus ermöglicht der Ansatz einen prompt-gesteuerten lokalisierten Bildstiltransfer, bei dem mehrere Stilziele auf entsprechende Masken übertragen werden können.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen