Der Artikel befasst sich mit der Herausforderung der hochpräzisen Objektsegmentierung in hochauflösenden Bildern (Dichotomous Image Segmentation, DIS). Zwei Hauptprobleme werden identifiziert: 1) Die höhere Anforderung an die Segmentierungsfähigkeit aufgrund der vielen Details in hochauflösenden Bildern und 2) die Notwendigkeit einer effizienten Verarbeitung aufgrund der großen Bildgrößen.
Um diese Probleme anzugehen, wird ein parsimonierendes Multi-View-Aggregationsnetzwerk (MVANet) vorgestellt. Dieses Netzwerk verarbeitet das Eingabebild aus zwei Perspektiven: Einem globalen Überblicksbild und mehreren lokalen Detailausschnitten. Zwei neuartige Module werden eingeführt:
Multi-View Complementary Localization Module (MCLM): Dieses Modul nutzt die globale Perspektive, um die Objektlokalisierung in den lokalen Detailausschnitten zu verbessern.
Multi-View Complementary Refinement Module (MCRM): Dieses Modul nutzt die lokalen Details, um die globale Repräsentation zu verfeinern und präzisere Segmentierungsergebnisse zu erzielen.
Durch die Kombination dieser beiden Module in einem einzigen, effizienten Netzwerkdesign kann MVANet die Vorteile der globalen und lokalen Perspektiven nutzen, um hochpräzise Objektsegmentierung in hochauflösenden Bildern zu erreichen. Experimente auf dem DIS5K-Datensatz zeigen, dass MVANet den Stand der Technik deutlich übertrifft, sowohl in Bezug auf die Genauigkeit als auch auf die Inferenzgeschwindigkeit.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Qian Yu,Xiao... о arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07445.pdfГлибші Запити