計算病理學(CPath)發展迅速,基於AI的診斷支持系統日益重要。近年來,基於大規模數據預先訓練的病理學基礎模型備受關注,這些模型在病理圖像特徵提取方面表現出色。然而,獲取精細標註的大規模病理圖像數據集仍然具有挑戰性,這限制了計算病理學中基礎模型和下游任務的發展。
Camelyon系列數據集是公開的病理學數據集,專注於檢測乳癌淋巴結轉移,被廣泛用於評估多實例學習(MIL)方法。然而,Camelyon數據集存在一些問題,例如圖像質量不佳、標籤錯誤以及缺乏像素級標註等,這些問題阻礙了深度學習方法在下游病理任務中的準確評估。
為了克服Camelyon數據集的局限性,本研究對其進行了重新處理和優化,構建了一個名為Camelyon+的新數據集。具體而言,研究人員排除了模糊、染色質量差、難以區分陽性病灶以及存在治療相關偽影的WSIs,並將Camelyon-161中的二元分類標籤擴展為四類系統,以便與Camelyon-172數據集合併。此外,研究人員還校正了Camelyon數據集中的像素級標註,並為之前缺乏像素級標註的陽性幻燈片添加了標註。
利用Camelyon+數據集,本研究重新評估了12種主流的MIL方法,包括ABMIL、TransMIL和ClAM等,並使用了兩種自然圖像預先訓練的特徵提取器(ResNet-50和VIT-S)以及四種特定於病理學的預先訓練特徵提取器(PILP、CONCH、UNI和Gigapath)。實驗結果表明,病理學預先訓練的特徵提取器顯著提高了MIL的性能。值得注意的是,使用圖像-文本對比學習的CONCH模型的性能可與使用更大訓練數據集的UNI和Gigapath模型相媲美,這表明圖像-文本對比預訓練在病理學領域可能比純視覺預訓練具有更大的潛力。
本研究構建的Camelyon+數據集為計算病理學領域的AI發展提供了新的基準和參考。實驗結果表明,數據集的質量對模型的性能有顯著影響,而病理學預先訓練的模型在淋巴結轉移檢測任務中表現更佳。此外,研究還發現,MIL方法在處理像Camelyon+這樣由轉移區域大小而非癌細胞亞型定義類別的臨床分類任務時可能存在局限性。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xitong Ling,... at arxiv.org 11-19-2024
https://arxiv.org/pdf/2411.10752.pdfDeeper Inquiries