LASPA ist ein neuartiger Ansatz zur textbasierten Bildbearbeitung mit Diffusionsmodellen, der ohne aufwendiges Finetuning auskommt. Im Gegensatz zu bisherigen Methoden, die entweder die Texteinbettung oder das gesamte Modell anpassen müssen, nutzt LASPA direkt die räumlichen Latenten des Diffusionsmodells, um Bilddetails zu erhalten und gleichzeitig die gewünschten Textbearbeitungen umzusetzen.
LASPA demonstriert drei verschiedene Ausrichtungsmethoden der räumlichen Latenten, um einen Kompromiss zwischen Bilderhaltung und Bearbeitungsstärke zu finden. Die Eingangsjustierung richtet die Latenten schrittweise an den Referenzbildmerkmalen aus, die Fehlerausrichtung justiert den vom Modell vorhergesagten Fehler, und die Ausrichtung der x0-Vorhersage nutzt direkt die Referenzbildcodierung.
LASPA erzielt so eine deutlich höhere Bilderhaltung als bisherige Methoden, die auf Finetuning angewiesen sind, bei gleichzeitig starker Umsetzung der gewünschten Textbearbeitungen. Zudem ist LASPA deutlich effizienter, da es keine aufwendige Optimierung oder Modellspeicherung erfordert und Bildbearbeitungen in weniger als 6 Sekunden durchführen kann.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問