核心概念
本文提出了一種基於 Transformer 的新型手術場景分割框架 TAFE,該框架採用非對稱特徵增強模組來提高對手術場景中不同特徵表示的識別能力,從而在 EndoVis2018 場景分割和 Endoscapes2023 物體識別方面均取得了最佳性能。
論文資訊
Yuan, C., & Ban, Y. (2024). Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement. arXiv preprint arXiv:2410.17642.
研究目標
本研究旨在開發一種基於 Transformer 的新型手術場景分割框架,以解決現有方法在識別手術場景中解剖結構和手術器械的相似局部紋理和細粒度結構方面的局限性。
方法
TAFE 框架: 提出了一種基於 Transformer 的框架,並結合了非對稱特徵增強模組 (AFE),該模組包含多尺度交互注意力 (MIA) 分支和 AFE 模組。
MIA 分支: 將增強的卷積特徵金字塔融合到 Transformer 編碼器的嵌入中,以改善局部和全局特徵表示。
AFE 模組: 採用對稱卷積和非對稱卷積運算,分別識別解剖結構的多邊形特徵和手術器械的條狀或管狀特徵。
主要發現
Endoscapes2023 數據集: 與 Mask-RCNN、Cascade Mask-RCNN、Mask2Former 和 MaskDINO 等最先進方法相比,TAFE 在檢測 mAP 和分割 mAP 方面均取得了最佳性能,特別是在肝囊三角解剖和囊動脈等難以識別的類別中表現出色。
EndoVis2018 數據集: TAFE 在 mIoU 和 mDice 指標上均優於現有方法,證明了非對稱特徵增強的有效性。
細粒度結構識別: TAFE 在識別管狀結構方面表現出顯著的改進,例如在光線昏暗的環境下準確識別囊動脈和囊板,以及在 EndoVis2018 數據集中分割細長的線狀結構。
主要結論
結合 MIA 分支和 AFE 模組的 TAFE 框架通過增強局部信息並融合多尺度特徵,有效提高了手術場景分割的準確性。
非對稱特徵增強模組通過分別處理解剖結構和手術器械的不同特徵,進一步提高了分割性能,特別是在細粒度結構識別方面。
意義
本研究提出了一種基於 Transformer 的手術場景分割新方法,並通過實驗驗證了其有效性,為手術場景理解和機器人輔助腹腔鏡手術的發展做出了貢獻。
局限性和未來研究方向
未來將進一步研究基於分割結果的下游任務,例如手術器械姿態估計和手術風險評估。
將探索更先進的 Transformer 架構和特徵增強技術,以進一步提高分割精度和效率。
統計資料
在 Endoscapes2023 數據集上,TAFE 的整體檢測 mAP 達到 32.5%,分割 mAP 達到 30.6%。
與表現次佳的方法相比,TAFE 在肝囊三角解剖和囊動脈的分割 mAP 分別提高了 19.2% 和 4.3%。
在 EndoVis2018 數據集上,TAFE 的 mIoU 達到 77.5%,mDice 達到 86.6%。
與之前最先進的 LSKANet 方法相比,TAFE 在序列 2 和序列 4 的 mIoU 分別提高了 19.3% 和 23.5%。