Core Concepts
Eine effiziente Datengenerierungspipeline, die auf leistungsfähigen Bildiffusionsmodellen basiert, kann die Leistung von Methoden zur domänenübergreifenden semantischen Segmentierung deutlich verbessern.
Abstract
Die Studie untersucht, wie leistungsfähige Bildiffusionsmodelle, die auf großen Internetdatensätzen trainiert wurden, für die Verbesserung der domänenübergreifenden semantischen Segmentierung genutzt werden können. Dafür wird eine neuartige Datengenerierungspipeline namens DGInStyle entwickelt, die folgende Schlüsselkomponenten umfasst:
Feines Finetuning eines vortrainierten Bildiffusionsmodells auf Daten aus der Quelldomäne, um eine semantische Kontrolle über die Bildgenerierung zu erlangen.
Eine "Style Swap"-Technik, um den Stil der Quelldomäne zu entfernen und die Vielfalt der generierten Bilder zu erhöhen.
Eine "Multi-Resolution Latent Fusion"-Technik, um die Auflösung der generierten Bilder zu erhöhen und eine präzise Ausrichtung mit den Segmentierungsmasken zu erreichen.
Eine Strategie zur Überrepräsentation seltener Klassen in den generierten Daten, um Verzerrungen des Segmentierungsmodells zu reduzieren.
Die so generierten Datensätze werden dann verwendet, um Segmentierungsmodelle zu trainieren, die eine deutlich verbesserte domänenübergreifende Leistung zeigen. Die Studie demonstriert die Wirksamkeit des Ansatzes anhand von Experimenten auf mehreren Datensätzen für autonomes Fahren.
Stats
Die Leistung der domänenübergreifenden semantischen Segmentierung wird um bis zu 7,2 Prozentpunkte verbessert, wenn die generierten Daten verwendet werden.
Die Leistung auf seltenen Klassen wie Ampeln und Verkehrsschilder wird deutlich gesteigert.
Quotes
"Eine effiziente Datengenerierungspipeline, die auf leistungsfähigen Bildiffusionsmodellen basiert, kann die Leistung von Methoden zur domänenübergreifenden semantischen Segmentierung deutlich verbessern."
"Die so generierten Datensätze werden dann verwendet, um Segmentierungsmodelle zu trainieren, die eine deutlich verbesserte domänenübergreifende Leistung zeigen."