ContextSeg ist ein zweistufiger Ansatz zur Skizzen-Semantiksegmentierung. In der ersten Stufe wird ein CNN-basiertes Netzwerk verwendet, um Stricheingettungen zu lernen, die sowohl die Formstruktur als auch die Positionsinformationen der Striche effektiv erfassen. Dazu wird eine neuartige Aufgabe der Vorhersage eines dichten Abstandsfelds in das Autoencoder-Netzwerk integriert, um die Strukturinformationen der Striche zu verstärken.
In der zweiten Stufe wird ein auto-regressives Transformer-Netzwerk verwendet, um die Segmentierung durchzuführen. Anstatt einzelne Striche nacheinander zu beschriften, wählt das Transformer-Dekodiernetzwerk in jedem Schritt eine Gruppe von Strichen aus, die zur gleichen semantischen Gruppe gehören. Durch diese gruppenbezogene Vorhersage kann der Kontext, d.h. die bereits beschrifteten Striche und die verbleibenden zu beschriftenden Striche, explizit genutzt werden, um überlegene Segmentierungsergebnisse zu erzielen.
Umfangreiche Experimente auf zwei repräsentativen Datensätzen zeigen, dass ContextSeg die besten Segmentierungsergebnisse im Vergleich zu anderen State-of-the-Art-Methoden erzielt. Darüber hinaus bieten wir Einblicke in die Lösung des Problems der Ungleichgewichte in den Trainingsdaten und führen ein vorläufiges Experiment zur Kategorieübergreifenden Ausbildung durch, was zukünftige Forschung in diesem Bereich inspirieren kann.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Jiawei Wang,... ב- arxiv.org 03-27-2024
https://arxiv.org/pdf/2311.16682.pdfשאלות מעמיקות