本文提出了一種全面的方法,將 SAM (Segment Anything Model) 從 2D 自然圖像轉移到 3D 醫療影像分割。
首先,在圖像編碼器層面,作者精心設計了修改方案,使原始的 2D 轉換器能夠支持體積輸入,同時保留大部分預訓練權重以供重用。作者發現,通過參數高效的微調,從 2D 圖像預訓練的權重仍然可以捕捉一些 3D 空間模式。
其次,在提示編碼器層面,作者提出了一種基於視覺採樣器的新方法,而不是使用位置編碼作為提示表示。這種方法證明在處理大量圖像令牌時表現良好,可以克服過度平滑的問題,並提高模型對不準確提示的鲁棒性。
最後,在掩碼解碼器層面,作者強調了輕量級設計,並增加了多層聚合,以生成 3D 分割。
作者在四個公開的腫瘤分割數據集上進行了實驗,結果表明,我們的方法在 3 個數據集上顯著優於現有的醫療影像分割方法,具體提高了 8.25%、29.87% 和 10.11%。在剩下的一個數據集上,我們的方法也達到了相似的性能。作者還與現有的參數高效微調方法進行了比較,發現我們的方法在大多數數據集上都有顯著的性能提升。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Shizhan Gong... في arxiv.org 10-03-2024
https://arxiv.org/pdf/2306.13465.pdfاستفسارات أعمق