Belangrijkste concepten
Ein effizientes CNN-Transformer-Netzwerk (LUCF-Net) wurde entwickelt, um die Leistung bestehender U-förmiger neuronaler Netzwerke für die medizinische Bildverarbeitung zu verbessern.
Samenvatting
Die Studie präsentiert einen neuen Ansatz für die medizinische Bildverarbeitung, genannt LUCF-Net, der CNN und Transformer kombiniert. Im Gegensatz zu anderen State-of-the-Art-Modellen, die auf CNN und Transformer basieren, erfasst LUCF-Net nicht nur detailliertere Bildinformationen, sondern erzielt auch eine bessere globale Modellierung der Zielinformationen. Die Modellierung dieser globalen Merkmale hilft dem Netzwerk, den gesamten Bildkontext besser zu verstehen und so die Segmentierungsleistung zu verbessern. LUCF-Net zeigte auch eine bessere Segmentierungsleistung bei geringerer Modellkomplexität, was das Potenzial für medizinische Bildverarbeitungsanwendungen zeigt.
Das Netzwerk besteht aus einem asymmetrischen CNN-Transformer-U-förmigen Rahmen. Der zentrale Bestandteil ist das lokale-globale Merkmalsextraktionsmodul (LG-Block), das nahtlos in die Herunterskalierungsstruktur des Encoders integriert ist. Der LG-Block nutzt eine effiziente und spärliche Selbstaufmerksamkeit, um lokale und globale Merkmale zu erfassen, ohne die Komplexität des Transformers zu erhöhen. Darüber hinaus wurde ein mehrschichtiges Kaskaden-Fusions-Dekodiernetzwerk entwickelt, um die Informationsfusionsfähigkeiten des Netzwerks weiter zu verbessern.
Die Validierungsergebnisse auf mehreren Datensätzen in CT-, MRT- und Bildformat zeigen, dass das vorgeschlagene Modell andere State-of-the-Art-Methoden in Bezug auf die Handhabung von lokalen und globalen Informationen übertrifft und eine Verbesserung von 1,54 % im Dice-Koeffizienten und 2,6 mm in der Hausdorff-Distanz bei der Mehrorganverarbeitung erzielt. Darüber hinaus erreicht es als Netzwerk, das CNN- und Transformer-Architekturen kombiniert, eine wettbewerbsfähige Segmentierungsleistung mit nur 6,93 Millionen Parametern und 6,6 Gigabyte Gleitkommaoperationen, ohne dass eine Vortrainierung erforderlich ist.
Statistieken
Die vorgeschlagene LUCF-Net-Methode erzielt eine Verbesserung von 1,54 % im Dice-Koeffizienten und 2,6 mm in der Hausdorff-Distanz bei der Mehrorganverarbeitung im Vergleich zu anderen State-of-the-Art-Methoden.
LUCF-Net erreicht eine wettbewerbsfähige Segmentierungsleistung mit nur 6,93 Millionen Parametern und 6,6 Gigabyte Gleitkommaoperationen, ohne dass eine Vortrainierung erforderlich ist.
Citaten
"Durch die Einbindung eines effizienten lokal-globalen Merkmalsextraktionsmoduls in den U-förmigen Netzwerkkoder werden die vom CNN abgeleiteten lokalen Merkmale nahtlos mit den vom Transformer extrahierten globalen Merkmalen integriert."
"Eine asymmetrische U-förmige Netzwerkarchitektur wurde entworfen, um die Modellkomplexität zu reduzieren. Es wird eine mehrschichtige Merkmalsfusion im Dekodierer durchgeführt, und der Verlust wird während des gesamten Trainingsprozesses schichtweise berechnet, was die Konvergenzrate des Netzwerks beschleunigt und die Fähigkeit des Netzwerks zur Fusion von lokalen und globalen Informationen verbessert."