Die Studie präsentiert Zippo, ein einheitliches Rahmenwerk, das die Verteilungen von Farbe und Transparenz in einem einzigen Diffusionsmodell vereint.
Zunächst wird das vortrainierte Text-zu-Bild-Diffusionsmodell Stable Diffusion an die Aufgabe der Alphamaskenvorhersage angepasst. Dazu wird der UNet-Eingang um den Alphakanal erweitert und das Modell feinabgestimmt.
Um die generative Fähigkeit des Originalmodells beizubehalten, wird eine komplementäre Matte-zu-RGB-Komponente eingeführt. Durch die Verwendung eines lernbaren Verteilungsidentifikators können beide Aufgaben (RGB-zu-Matte und Matte-zu-RGB) in einem einzigen Diffusionsmodell vereint werden.
Darüber hinaus ermöglicht Zippo die gemeinsame Generierung von RGB-Bildern und Alphamasken unter Textanleitung, indem es die gemeinsame Verteilung P(x, a|c) modelliert. Durch Kombination der generierten Ausgaben können transparente Bilder erstellt werden.
Die Experimente zeigen, dass Zippo in der Lage ist, präzise und fotorealistische transparente Bilder zu generieren, sowie plausible Ergebnisse für die Übersetzung zwischen Farbbildern und Alphamasken zu liefern.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kangyang Xie... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11077.pdfDeeper Inquiries