Grunnleggende konsepter
Eine einfache Methode zur Verbesserung der Generalisierungsfähigkeit von semantischen Segmentierungsnetzen durch den Einsatz von Sprache als Quelle für Randomisierung.
Sammendrag
Der Artikel stellt eine einfache Methode namens FAMix vor, um die Generalisierungsfähigkeit von semantischen Segmentierungsnetzen zu verbessern. FAMix besteht aus drei Hauptkomponenten:
- Minimales Finetuning des Rückgratnetzes, um die Integrität der vortrainierten Darstellung zu erhalten.
- Sprachgesteuerte lokale Stilaugmentierung, bei der für jede Patch-Region des Eingabebilds ein zufälliger Stil aus einer klassenspezifischen Stilbank ausgewählt und mit dem Originalbild vermischt wird.
- Randomisierung durch das Mischen der Quell- und augmentierten Stile während des Trainings.
Die Autoren zeigen, dass diese einfache Rezeptur zu state-of-the-art-Ergebnissen auf verschiedenen Benchmarks für domänenübergreifende semantische Segmentierung führt. Insbesondere übertrifft FAMix andere Methoden, die auf ImageNet-Vortraining basieren, deutlich, wenn es um die Generalisierung auf ungesehene Domänen geht.
Statistikk
Die Segmentierungsleistung (mIoU%) auf Cityscapes beträgt 48,15%.
Die Segmentierungsleistung (mIoU%) auf BDD-100K beträgt 45,61%.
Die Segmentierungsleistung (mIoU%) auf Mapillary beträgt 52,11%.
Sitater
"Eine einfache Rezeptur für domänenübergreifende, sprachgesteuerte Segmentierung"
"Eine einfache Methode zur Verbesserung der Generalisierungsfähigkeit von semantischen Segmentierungsnetzen durch den Einsatz von Sprache als Quelle für Randomisierung."