Die Studie präsentiert eine neue Methode zur Zero-Shot-Domänenanpassung für semantische Segmentierung, genannt ZoDi. ZoDi besteht aus zwei Hauptkomponenten:
Zero-Shot-Bildübertragung: Hier wird ein Diffusionsmodell verwendet, um Quelldomain-Bilder in die Zieldomäne zu übertragen, wobei besonderer Wert darauf gelegt wird, das Layout und den Inhalt der Bilder beizubehalten. Dazu wird ein Layout-zu-Bild-Diffusionsmodell mit stochastischer Invertierung verwendet.
Modell-Adaption: Das Segmentationsmodell wird dann mit den originalen Quelldomain-Bildern und den generierten Zieldomäin-ähnlichen Bildern trainiert. Dabei wird die Ähnlichkeit der Bildmerkmale aus beiden Domänen maximiert, um robuste domänenübergreifende Darstellungen zu lernen.
Die Experimente zeigen, dass ZoDi in verschiedenen Szenarien der Domänenanpassung (Tag→Nacht, klar→Schnee, klar→Regen, klar→Nebel, real→Spiel) konsistente Verbesserungen gegenüber Modellen erzielt, die nur mit Quelldaten trainiert wurden. In einigen Fällen übertrifft ZoDi sogar Methoden, die Bilder aus der Zieldomäne verwenden, ohne dass Zielbilder erforderlich sind. ZoDi ist zudem modellunabhängig und ermöglicht die Abschätzung der Modellleistung ohne Zielbilder, indem die generierten Bilder inspiziert werden können.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hiroki Azuma... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13652.pdfDeeper Inquiries