本文提出了Swin-LiteMedSAM,一種新的輕量級基於框的Segment Anything Model。主要包括以下創新點:
採用輕量級Swin Transformer作為圖像編碼器,相比於原始的ViT,Swin Transformer能夠更有效地提取高層次特徵,同時計算和內存消耗也更低。
除了原有的框提示,引入了基於框的點和基於框的塗鴉兩種新的提示類型。這些提示能夠提供更多的空間線索,在不大幅增加計算成本的情況下提高了分割精度。
在圖像編碼器和掩碼解碼器之間建立跳躍連接,增強了特徵融合,進一步提升了模型性能。
在CVPR 2024舉辦的"在筆記本電腦上分割醫療影像"挑戰賽中,Swin-LiteMedSAM在多個醫療影像模態上都取得了顯著的性能提升,同時推理速度也明顯優於基線模型LiteMedSAM。在驗證集上,Swin-LiteMedSAM的DSC和NSD分別達到了86.70%和88.55%,在最終測試集上也取得了81.93%的DSC和84.61%的NSD,獲得了第四名的成績。
翻譯成其他語言
從原文內容
arxiv.org
深入探究