Die Autoren präsentieren ein Framework namens Mask-ControlNet, das eine zusätzliche Maske als Eingabe verwendet, um die Beziehung zwischen Vorder- und Hintergrund bei der Bildsynthese besser zu verstehen und so eine höhere Bildqualität zu erzielen.
Konkret wird zunächst mit Hilfe großer Sichtmodelle eine Maske erstellt, um die Objekte von Interesse im Referenzbild zu segmentieren. Anschließend werden die Objektbilder als zusätzliche Befehle verwendet, um das Diffusionsmodell dabei zu unterstützen, die Beziehung zwischen Vorder- und Hintergrundregionen während der Bilderzeugung besser zu verstehen.
Die Experimente zeigen, dass die Maskenpromots die Kontrollierbarkeit des Diffusionsmodells verbessern, um eine höhere Treue zum Referenzbild bei gleichzeitig besserer Bildqualität zu erreichen. Der Vergleich mit früheren Methoden zur Textzu-Bild-Generierung zeigt die überlegene quantitative und qualitative Leistung des vorgeschlagenen Ansatzes auf Benchmark-Datensätzen.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések