核心概念
TP-UNet 模型透過時間提示(temporal prompts)有效整合醫學影像中的時間資訊,提升醫學影像分割的準確性。
摘要
論文概述
本論文提出了一種名為 TP-UNet 的醫學影像分割模型,旨在解決現有基於 UNet 的方法忽略掃描影像時間資訊的問題。
研究背景
醫學影像分割在疾病診斷、手術規劃和治療監測中扮演著至關重要的角色。近年來,基於深度學習的醫學影像分割技術,特別是 UNet 模型及其變體,展現出良好的分割精度。然而,現有的方法往往忽略了醫學影像中所蘊含的時間資訊。
TP-UNet 模型
為了解決上述問題,本論文提出了 TP-UNet 模型,該模型利用時間提示來引導 UNet 模型的學習過程。具體而言,TP-UNet 模型包含以下關鍵組成部分:
- 時間提示模組:根據醫學影像的時間資訊自動生成時間提示,例如 "This is {an MRI / a CT} of the {organ} with a segmentation period of {N th i /N}.",其中包含影像類型、器官和時間戳等資訊。
- 多模態編碼器:分別對輸入的醫學影像和時間提示進行編碼。對於時間提示,採用 CLIP 和 Electra 兩種文本編碼器進行實驗比較。
- 語義對齊模組:利用無監督對比學習方法,對齊時間提示和影像特徵的語義,縮小不同模態編碼器之間的語義差距。
- 模態融合模組:採用交叉注意力機制,將更新後的時間提示表示和影像表示進行融合,生成統一的表示作為 UNet 模型解碼器的輸入。
實驗結果
本論文在 UW-Madison 和 LITS 2017 兩個醫學影像分割數據集上進行了實驗,結果表明 TP-UNet 模型在分割精度方面優於現有的方法。
總結
TP-UNet 模型透過時間提示有效整合醫學影像中的時間資訊,提升了醫學影像分割的準確性。該模型為醫學影像分析提供了新的思路,具有重要的臨床應用價值。
統計資料
在 UW-Madison 數據集上,TP-UNet 模型的 Dice 指標相較於 UNet 平均提升了 4.44%,其中小腸類別的提升最為顯著,達到了 5.32%。
在 LITS 2017 數據集上,TP-UNet 模型的 Dice 指標相較於 UNet 提升了 6.08%,Jaccard 指標提升了 6.33%。
在移除時間資訊後,UW-Madison 數據集上的 mDice 指標下降了 2.1%。
在移除整個時間提示並使用自注意力機制進行模態融合後,LITS 數據集上的 mDice 指標顯著下降了 5.36%。
在不進行語義對齊的情況下直接進行模態融合,UW-Madison 數據集上的 mDice 指標下降了 1.01%。