核心概念
此研究提出了一種基於強化學習的雙重注意力模型,用於有效且準確地分類組織學全玻片圖像,模擬病理學家的診斷過程,並減少傳統深度學習方法所需的計算資源和時間。
摘要
書目資訊
Raza, M., Awan, R., Bashir, R. M. S., Qaiser, T., & Rajpoot, N. M. (2024). Dual Attention Model with Reinforcement Learning for Classification of Histology Whole-Slide Images. arXiv preprint arXiv:2302.09682v2.
研究目標
本研究旨在開發一種有效且準確的方法,用於分類組織學全玻片圖像 (WSI),以解決傳統深度學習方法在處理此類圖像時所面臨的計算和資訊挑戰。
方法
研究人員提出了一種新穎的雙重注意力模型,該模型結合了軟注意力和硬注意力機制,以模擬病理學家檢查組織切片的過程。軟注意力模型首先處理低倍率的 WSI 視圖,以識別相關的興趣區域 (ROI)。然後,使用自定義採樣方法從選定的 ROI 中提取多樣化且空間上不同的圖像塊。硬注意力分類模型進一步從每個圖像塊中提取一系列多解析度「掃視」,以進行分類。由於硬注意力是不可微分的,因此使用強化學習來訓練該組件以預測「掃視」的位置。
主要發現
- 所提出的模型在兩個 WSI 級別的分類問題(乳腺癌組織學圖像中的人類表皮生長因子受體 2 (HER2) 評分和結直腸癌組織學圖像中兩個錯配修復 (MMR) 生物標記物的完整/缺失狀態的預測)上進行了評估。
- 結果表明,與最先進的方法相比,該模型在僅處理最高放大倍率下不到 10% 的 WSI 的情況下,實現了更好或相當的性能,並且將推斷 WSI 級別標籤所需的時間減少了 75% 以上。
主要結論
基於強化學習的雙重注意力模型為 WSI 分類提供了一種有效且準確的方法。通過模擬病理學家的診斷過程,該模型能夠選擇性地關注圖像中最相關的區域,從而減少計算負擔並保持高性能。
意義
這項研究對計算病理學領域做出了重大貢獻,為基於 WSI 的癌症診斷和預後提供了潛在的臨床應用價值。
局限性和未來研究
該研究的一個局限性是評估數據集的規模相對較小。未來研究可以使用更大、更多樣化的數據集來進一步驗證該模型的穩健性和通用性。此外,探索將該模型擴展到其他計算病理學任務(如腫瘤分割和分級)將是有價值的。
統計資料
該模型在僅處理最高放大倍率下不到 10% 的 WSI 的情況下,實現了更好或相當的性能。
該模型將推斷 WSI 級別標籤所需的時間減少了 75% 以上。
COMET-MMR 數據集包含 72 個來自結直腸癌患者的 WSI。
HER2 挑戰數據集包含 172 個來自 86 個浸潤性乳腺癌病例的 WSI。
引述
“By incorporating the shortcut approach used by a pathologist in IHC scoring or classification algorithms, we mimick the way a pathologist operates and consequently make the diagnostic process more understandable to the pathologists.”
“The main contributions of this study are, therefore, as listed below:
We introduce a novel dual hierarchical attention model for the classification of gigapixel WSIs and propose a dynamic joint loss function to train the model in an end-to-end.
We also propose a novel sampling strategy to increase the chances of selecting informative and spatially distinct image tiles and have reduced the percentage of overlapping tiles by approximately 60%.
We demonstrate that the proposed method achieves performance better or comparable to state-of-the-art methods while analyzing less than 10% of the WSI tissue regions at the highest magnification.
We show that the proposed method significantly reduces the time required to process a slide during inference by more than 75%.”