核心概念
本文提出了一種基於類別感知語義擴散模型 (CASDM) 的新型圖像合成方法,用於解決手術場景分割中數據稀缺和類別不平衡的問題,並通過生成與分割圖緊密匹配的多樣化、高質量圖像,尤其提升了對較小、臨床上關鍵類別的分割效果,最終提高了手術場景分割的準確性。
摘要
文獻類型
這是一篇研究論文,闡述了一種基於類別感知語義擴散模型的圖像合成方法在手術場景分割中的應用。
研究目標
- 針對手術場景分割中存在的數據稀缺和類別不平衡問題,提出基於類別感知語義擴散模型 (CASDM) 的新型圖像合成方法。
- 旨在通過生成高質量、與分割圖緊密匹配的合成圖像來增強數據集,特別是針對數據集中代表性不足的類別。
方法
- 提出了類別感知語義擴散模型 (CASDM),利用語義圖像合成技術,並結合雙路徑架構和空間自適應歸一化層,生成與分割圖相匹配的圖像。
- 設計了類別感知均方誤差 (LCAMSE) 損失函數,解決傳統像素級均方誤差損失函數忽視較小類別的問題,提升模型對所有類別的保真度。
- 引入了類別感知自我感知損失 (LCASP),通過比較輸入圖像和預測圖像的噪聲版本,改善合成圖像的紋理、顏色和結構等感知質量,尤其針對較小類別。
- 首次提出使用文本提示生成多類別分割圖的創新方法,通過將每個類別的文本提示分別輸入預先訓練好的 CLIP 模型中,生成包含類別名稱、數量和位置信息的文本嵌入,並將其用於指導擴散模型生成分割圖。
結果
- 在 CholecSeg8K 數據集上進行的實驗表明,與基於條件生成對抗網絡 (cGAN) 和語義擴散模型 (SDM) 的方法相比,CASDM 能夠生成更高質量的合成圖像,並顯著提高了下游分割模型在血液、膽囊管和肝靜脈等代表性不足類別上的分割性能。
- 通過消融實驗驗證了 LCAMSE 和 LCASP 對提高合成圖像質量和分割性能的有效性。
- 在另一個手術場景分割數據集(胃切除術 SISVSE 數據集)上進行的實驗進一步證明了 CASDM 的泛化能力,表明該方法可以推廣到不同的手術場景和數據集。
結論
- 本文提出的基於 CASDM 的圖像合成方法可以有效解決手術場景分割中數據稀缺和類別不平衡的問題。
- CASDM 生成的多樣化、高質量合成圖像可以顯著提高下游分割模型的性能,特別是在處理代表性不足的類別時。
- 未來研究方向包括開發能夠直接從文本提示生成分割圖和圖像的模型,以進一步提高該方法的實用性和對手術決策的支持。
統計資料
CholecSeg8K 數據集包含 8080 對圖像-掩碼對,涵蓋 13 個類別,其中血液、膽囊管和肝靜脈等類別的代表性不足。
血液、膽囊管和肝靜脈分別僅占圖像總數的 8.56%、3.07% 和 3.92%。
這些類別在圖像中的像素占比也很小,血液占 4.93%,膽囊管占 1.2%,肝靜脈僅占 0.24%。
CASDM 在使用 DPM-Solver++ 調度器和 30 個推理時間步長的情況下,生成一對圖像和分割圖的時間約為 2 秒。
在 CholecSeg8K 數據集上,CASDM 在 SegFormer 模型上對血液、膽囊管和肝靜脈三個類別的 mIoU 平均提升了 1.4%,mDice 平均提升了 0.6%。
在 CholecSeg8K 數據集上,CASDM 在 Mask2Former 模型上對上述三個類別的 mIoU 平均提升了 1.3%,mDice 平均提升了 0.9%。
結合文本提示生成分割圖的方法後,CASDM 在 Mask2Former 模型上對膽囊管類別的 mIoU 提升了 3.2%。
在胃切除術 SISVSE 數據集上,使用 CASDM 和文本提示生成分割圖的方法後,SegFormer 模型的 mIoU 平均提升了 3.6%,mDice 平均提升了 4.3%。
在胃切除術 SISVSE 數據集上,使用上述方法後,Mask2Former 模型的 mIoU 平均提升了 5.1%,mDice 平均提升了 4.4%。
引述
"To overcome the above limitations, we propose the Class-Aware Semantic Diffusion Model (CASDM) tailored for surgical scene generation."
"For the first time, segmentation maps containing multiple classes are generated to guide semantic image synthesis."
"We propose a model that uniquely generates segmentation maps using separate text prompts for each class, specifying class names, quantities, and locations."