In dieser Arbeit stellen wir Style-Extracting Diffusion Models (STEDM) vor, eine neuartige Methode zur Erstellung von Bildern mit bekannter Zielgröße (z.B. Layout) aber unbekannten, neuen Stilen. Der Kern unseres Ansatzes ist ein Latent Diffusion Model (LDM), das um zwei Konditionierungsmechanismen erweitert wird:
Wir führen einen trainierbaren Stil-Encoder ein, um Styleninformationen aus Bildern zu extrahieren, sowie einen Aggregationsblock, der Styleninformationen aus mehreren Stil-Eingaben zusammenführt. Diese Architektur ermöglicht die Generierung von Bildern mit unbekannten Stilen in einem Zero-Shot-Ansatz, indem Stile aus ungesehenen Bildern genutzt werden, was zu einer vielfältigeren Bildgenerierung führt.
In dieser Arbeit verwenden wir das Bildlayout als Zielgröße und zeigen zunächst die Leistungsfähigkeit unserer Methode auf einem natürlichen Bilddatensatz als Machbarkeitsnachweis. Anschließend demonstrieren wir die Vielseitigkeit in der Histopathologie, wo wir Vorwissen über die Gewebestruktur und unmarkierte Daten kombinieren, um diverse synthetische Bilder mit bekannten Layouts zu erstellen. Dies ermöglicht es uns, zusätzliche synthetische Daten zu generieren, um ein Segmentierungsnetzwerk in einem semi-überwachten Ansatz zu trainieren. Wir belegen den Mehrwert der generierten Bilder, indem wir verbesserte Segmentierungsergebnisse und eine geringere Leistungsvariabilität zwischen Patienten zeigen, wenn synthetische Bilder in das Segmentierungstraining einbezogen werden.
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas