In dieser Arbeit zeigen wir, dass bestehende Methoden zur kontrollierbaren Bildgenerierung immer noch Herausforderungen bei der genauen Einhaltung der Eingabebedingungen haben. Um dies zu verbessern, schlagen wir ControlNet++ vor, einen neuartigen Ansatz, der die Kontrolle durch explizite Optimierung der Pixel-Konsistenz zwischen generierten Bildern und Eingabebedingungen verbessert.
Konkret verwenden wir vorgelernte diskriminative Belohnungsmodelle, um die entsprechenden Bedingungen der generierten Bilder zu extrahieren und dann die Konsistenzverluste zwischen Eingabebedingungen und extrahierten Bedingungen zu optimieren. Um die Effizienz zu verbessern, führen wir eine effiziente Belohnungsstrategie ein, bei der wir die Eingabebilder absichtlich durch Rauschen stören und dann die einstufig entverrauschten Bilder für das Belohnungsfeedback verwenden.
Umfangreiche Experimente zeigen, dass ControlNet++ die Kontrolle unter verschiedenen Bedingungen wie Segmentierungsmasken, Linienkunst-Kanten und Tiefenkarten deutlich verbessert, ohne die Bildqualität zu beeinträchtigen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ming Li,Taoj... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07987.pdfDeeper Inquiries