LASPA ist ein neuartiger Ansatz zur textbasierten Bildbearbeitung mit Diffusionsmodellen, der ohne aufwendiges Finetuning auskommt. Im Gegensatz zu bisherigen Methoden, die entweder die Texteinbettung oder das gesamte Modell anpassen müssen, nutzt LASPA direkt die räumlichen Latenten des Diffusionsmodells, um Bilddetails zu erhalten und gleichzeitig die gewünschten Textbearbeitungen umzusetzen.
LASPA demonstriert drei verschiedene Ausrichtungsmethoden der räumlichen Latenten, um einen Kompromiss zwischen Bilderhaltung und Bearbeitungsstärke zu finden. Die Eingangsjustierung richtet die Latenten schrittweise an den Referenzbildmerkmalen aus, die Fehlerausrichtung justiert den vom Modell vorhergesagten Fehler, und die Ausrichtung der x0-Vorhersage nutzt direkt die Referenzbildcodierung.
LASPA erzielt so eine deutlich höhere Bilderhaltung als bisherige Methoden, die auf Finetuning angewiesen sind, bei gleichzeitig starker Umsetzung der gewünschten Textbearbeitungen. Zudem ist LASPA deutlich effizienter, da es keine aufwendige Optimierung oder Modellspeicherung erfordert und Bildbearbeitungen in weniger als 6 Sekunden durchführen kann.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yazeed Alhar... alle arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12585.pdfDomande più approfondite