Die Studie präsentiert einen neuen Ansatz für die medizinische Bildverarbeitung, genannt LUCF-Net, der CNN und Transformer kombiniert. Im Gegensatz zu anderen State-of-the-Art-Modellen, die auf CNN und Transformer basieren, erfasst LUCF-Net nicht nur detailliertere Bildinformationen, sondern erzielt auch eine bessere globale Modellierung der Zielinformationen. Die Modellierung dieser globalen Merkmale hilft dem Netzwerk, den gesamten Bildkontext besser zu verstehen und so die Segmentierungsleistung zu verbessern. LUCF-Net zeigte auch eine bessere Segmentierungsleistung bei geringerer Modellkomplexität, was das Potenzial für medizinische Bildverarbeitungsanwendungen zeigt.
Das Netzwerk besteht aus einem asymmetrischen CNN-Transformer-U-förmigen Rahmen. Der zentrale Bestandteil ist das lokale-globale Merkmalsextraktionsmodul (LG-Block), das nahtlos in die Herunterskalierungsstruktur des Encoders integriert ist. Der LG-Block nutzt eine effiziente und spärliche Selbstaufmerksamkeit, um lokale und globale Merkmale zu erfassen, ohne die Komplexität des Transformers zu erhöhen. Darüber hinaus wurde ein mehrschichtiges Kaskaden-Fusions-Dekodiernetzwerk entwickelt, um die Informationsfusionsfähigkeiten des Netzwerks weiter zu verbessern.
Die Validierungsergebnisse auf mehreren Datensätzen in CT-, MRT- und Bildformat zeigen, dass das vorgeschlagene Modell andere State-of-the-Art-Methoden in Bezug auf die Handhabung von lokalen und globalen Informationen übertrifft und eine Verbesserung von 1,54 % im Dice-Koeffizienten und 2,6 mm in der Hausdorff-Distanz bei der Mehrorganverarbeitung erzielt. Darüber hinaus erreicht es als Netzwerk, das CNN- und Transformer-Architekturen kombiniert, eine wettbewerbsfähige Segmentierungsleistung mit nur 6,93 Millionen Parametern und 6,6 Gigabyte Gleitkommaoperationen, ohne dass eine Vortrainierung erforderlich ist.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询