Belangrijkste concepten
Die vorgeschlagene Methode reduziert erfolgreich das Hintergrundrauschen in Aufmerksamkeitskarten, was zu einer verbesserten Genauigkeit der Pseudolabels führt.
Samenvatting
Die Studie befasst sich mit dem Problem des Hintergrundrauschens in Aufmerksamkeitskarten bei der schwach überwachten semantischen Segmentierung (WSSS).
Kernpunkte:
- WSSS zielt darauf ab, die Kosten für die Annotation zu senken, indem nur Bildetiketten anstelle von Pixelannotationen verwendet werden.
- Bestehende WSSS-Methoden, die auf Convolutional Neural Networks (CNNs) basieren, tendieren dazu, nur die diskriminativsten lokalen Regionen von Objekten zu aktivieren.
- Methoden, die auf Transformern basieren, lernen zwar globale Merkmale, leiden aber unter der Kontamination durch Hintergrundrauschen.
- Die vorgeschlagene Methode reduziert erfolgreich das Hintergrundrauschen in Aufmerksamkeitskarten, indem sie Aufmerksamkeitskarten-verstärkte Class Activation Maps (CAMs) in die Verlustfunktion während des Trainings einbezieht.
- Experimente auf den PASCAL VOC 2012- und MS COCO 2014-Datensätzen zeigen, dass die vorgeschlagene Methode die Segmentierungsgenauigkeit im Vergleich zu bestehenden Methoden verbessert.
Statistieken
Auf dem PASCAL VOC 2012-Trainingsdatensatz erzielte die vorgeschlagene Methode eine Genauigkeit von 71,3%, was eine Verbesserung von 1,1 Prozentpunkten gegenüber der Baseline darstellt.
Auf dem MS COCO 2014-Trainingsdatensatz erzielte die vorgeschlagene Methode eine Genauigkeit von 50,6%, was eine Verbesserung von 1,9 Prozentpunkten gegenüber der Baseline darstellt.
Citaten
"Die vorgeschlagene Methode erfolgreich reduziert Hintergrundrauschen, was zu einer verbesserten Genauigkeit der Pseudolabels führt."
"Experimente auf den PASCAL VOC 2012- und MS COCO 2014-Datensätzen zeigen, dass die vorgeschlagene Methode die Segmentierungsgenauigkeit im Vergleich zu bestehenden Methoden verbessert."