核心概念
MSA$^2$Net 是一種新穎的深度分割框架,透過結合多尺度自適應空間注意力閘門(MASAG)和混合解碼器設計,有效融合了局部和全局特徵,提升了醫學影像分割的準確性。
摘要
醫學影像分割旨在識別和分離醫學影像中的目標實例,以描繪各種組織和結構,這項任務由於這些特徵的大小、形狀和密度的顯著變化而變得複雜。傳統上,卷積神經網路 (CNN) 一直被用於這項任務,但在捕捉長距離依賴關係方面存在局限性。配備自注意力機制的 Transformer 旨在解決這個問題。然而,在醫學影像分割中,融合局部和全局特徵以有效地整合跨多個尺度的特徵圖非常有利,它可以同時捕捉細節特徵和更廣泛的語義元素,以應對結構的變化。在本文中,我們介紹了 MSA$^2$Net,這是一種新的深度分割框架,具有便捷的跳躍連接設計。這些連接通過動態加權和組合粗粒度編碼器特徵與細粒度解碼器特徵圖來促進特徵融合。具體來說,我們提出了一種多尺度自適應空間注意力閘門 (MASAG),它可以動態調整感受野(局部和全局上下文信息),以確保選擇性地突出顯示空間相關特徵,同時最大限度地減少背景干擾。涉及皮膚病學和放射學數據集的廣泛評估表明,我們的 MSA$^2$Net 優於最先進 (SOTA) 的工作或與其性能相匹配。源代碼可在 https://github.com/xmindflow/MSA-2Net 公開獲取。
研究目標
本文旨在解決醫學影像分割中局部和全局信息處理的局限性,提出了一種新的深度分割框架 MSA$^2$Net,該框架通過結合多尺度自適應空間注意力閘門 (MASAG) 和混合解碼器設計,有效融合了局部和全局特徵,提升了醫學影像分割的準確性。
方法
MSA$^2$Net 採用編碼器-解碼器結構,其中編碼器使用預訓練的 MaxViT 塊,解碼器在較深層使用 DAE-Former 塊,在較淺層使用 LKA 塊。編碼-解碼特徵融合通過新穎的 MASAG 模塊進行。MASAG 模塊包括多尺度融合、空間選擇、空間交互和交叉調製以及重新校準四個階段。
主要發現
MASAG 模塊可以動態調整感受野,以強調空間相關特徵並抑制不相關的背景細節。
混合解碼器在較深層集成了 DAE-Former 塊,用於低分辨率影像處理,在較淺層集成了 LKA 模塊,用於高分辨率細節管理,以實現準確且邊界感知的分割。
在兩個具有挑戰性的醫學數據集(即皮膚病學 (ISIC2018) 和放射學 (Synapse) 數據集)上的廣泛評估表明,該方法在多種指標上均優於最先進的方法。
結論
MSA$^2$Net 通過引入 MASAG 模塊和混合解碼器設計,有效地解決了醫學影像分割中局部和全局信息處理的局限性,並在多個基準數據集上取得了優於最先進方法的性能。
統計
在 Synapse 數據集中,MSA2Net 的表現優於 2D 版本的 D-LKA 0.48%。
與表現次佳的方法相比,MSA2Net 在胰腺和主動脈區段的分割方面分別提升了 1.59% 和 1.13%。
在 ISIC 數據集中,MSA2Net 在大多數指標上都取得了最高分,並且在 DSC 指標上至少比其他方法高出 1.24%。