核心概念
LIMIS 是一種開創性的基於語言的互動式醫學影像分割框架,允許放射科醫生僅使用自然語言來調整初始分割蒙版,將其專業知識融入分割過程。
摘要
LIMIS:基於語言的互動式醫學影像分割
簡介
本研究介紹了 LIMIS,這是一個完全基於語言的互動式醫學影像分割模型。該模型通過將 Grounded SAM 應用於醫學領域,並設計了一種基於語言的模型交互策略,使放射科醫生能夠將其知識融入分割過程。
方法
LIMIS 由三個主要組成部分組成:語言到邊界框組件 (Lang2BBox)、邊界框到分割組件 (BBox2Mask) 和用戶交互循環。
- Lang2BBox 組件: 首先使用基於文本的目標檢測器 Grounding DINO 生成一個圍繞目標對象的邊界框。
- BBox2Mask 組件: 使用預測的邊界框作為 ScribblePrompt 模型的提示,預測初始分割蒙版。
- 用戶交互循環: 允許通過用戶交互來細化初始分割蒙版。用戶可以選擇手動調整或使用預定義的自動化多步驟策略來解決常見的分割問題。
評估
LIMIS 在三個公開可用的醫學數據集上進行了評估,結果顯示其分割蒙版質量高,交互性強。一項針對專業放射科醫生的用戶研究證實了 LIMIS 的可用性。
結論
LIMIS 是第一個僅使用語言進行醫學影像互動式分割的模型,為放射科醫生提供了一種在執行其他任務時調整分割蒙版的創新方法。
統計資料
使用 ScribblePrompt 作為 BBox2Seg 組件時,將整個圖像及其邊界框輸入模型的 Dice 分數為 53%。
將圖像裁剪到邊界框加上周圍的小邊距後,Dice 分數顯著提高到 58%。
使用常見的放射科醫生 CT 可視化窗口作為 ScribblePrompt 的輸入,性能從 58% Dice 提升到 63%。
默認情況下將邊界框擴大 10 個像素可以將性能提高到 66% Dice。
將邊界框進一步擴大到每邊 20 個像素會導致性能顯著下降至 54% Dice。
在用戶研究中,參與者總共標記了 63 張圖像。
對於 41 張圖像(65%),最終分割的 Dice 分數高於初始分割。
這些圖像的平均 Dice 改善率為 (6 ± 5.13)%。
大約 21% 的圖像的最終 Dice 分數較低(−2±2)%。
14% 的圖像的 Dice 分數在交互前後相同。
總體而言,Dice 分數變化為 (4±7.0)%。
引述
“[...] [你] 一旦上手,就很容易使用。” - 參與者 P1
“這些建議非常有價值。” - 參與者