toplogo
登入

基於兩階段概念方法增強皮膚病變診斷的可解釋性和信任度


核心概念
此研究提出了一種基於兩階段概念的新方法,利用預先訓練好的視覺語言模型和大型語言模型,在無需額外訓練的情況下,提供基於概念的皮膚病變診斷,並提高可解釋性和信任度。
摘要

文獻回顧

視覺語言模型
  • 視覺語言模型 (VLM) 旨在使用對比學習從圖像-文本對中學習聯合表示。
  • 醫學領域的 VLM 應用面臨挑戰,例如分佈偏移和特定領域詞彙。
  • 醫學專用 VLM,如 BiomedCLIP、PubMedCLIP 和 MedCLIP,在 PubMed 文章和放射學數據集等來源的大規模圖像-文本對上進行了預先訓練。
  • 儘管取得了這些進展,但與特定任務模型相比,此類模型的表現仍然不佳,並且在其決策過程中缺乏透明度和可解釋性。
皮膚病變診斷的可解釋模型
  • 概念瓶頸模型 (CBM) 首先預測一組人類可理解的概念,然後使用這些概念來確定最終的類別標籤,從而提供決策過程的透明度。
  • CBM 面臨兩個關鍵挑戰:需要對人類可理解的概念進行詳細註釋,以及在引入新概念時必須重新訓練模型。
  • 一些研究探索了使用大型語言模型 (LLM) 來生成目標類別的候選概念,以解決對註釋的需求。
  • 其他方法使用視覺語言模型 (VLM) 將視覺特徵與預先定義的臨床相關概念對齊。

方法

概念預測
  • 利用預先訓練好的 VLM 來預測輸入圖像中皮膚鏡概念的存在。
  • 通過評估圖像特徵嵌入與概念集 C 中每個概念 c 的特徵嵌入之間的相似性來確定皮膚鏡概念 c 在輸入圖像中的存在。
疾病分類
  • 使用大型語言模型 (LLM) 來生成基於預測的皮膚鏡概念的最終疾病診斷。
  • 使用在第一階段生成的概念分數,將它們二值化並映射到它們各自的概念名稱。
  • 然後將這些概念合併到設計的提示中,以提示 LLM 生成最終的診斷類別。
少樣本提示
  • 少樣本提示,也稱為上下文學習 (ICL),是一種提示工程技術,其中在推理過程中,模型在提示中獲得了一些任務演示作為條件。
  • 該方法已被證明可以顯著提高 LLM 的性能。
  • 該過程涉及向模型呈現 K 個演示示例,其中包含上下文和基本事實答案,然後是最後一個示例(查詢),模型應在其中遵循給定演示的模板生成答案。
  • 這種方法的主要優點是它不需要更新模型的權重。

實驗結果

  • 所提出的方法在所有數據集的所有基準方法中始終表現出色。
  • 類似 CLIP 的模型(例如 CLIP 和 BiomedCLIP)通常顯示出較差的零樣本性能,尤其是在敏感性方面,因為它們經常預測良性類別(痣)。
  • 在皮膚鏡圖像上微調的視覺語言模型 (VLM) 表現要好得多,其中 MONET 和 ExpLICD 顯示出最高的準確性。
  • 通過將 ExpLICD 與 MMed(用於 PH2 和 HAM10000)以及 ExpLICD 與 Mistral(用於 Derm7pt)相結合,該方法優於所有基準。
  • 通過包含演示示例將更多上下文合併到提示中,可以進一步改善 PH2 和 Derm7pt 的結果。
  • 直接預測圖像特徵與編碼類別標籤相比,首先預測臨床概念然後使用該信息進行類別標籤預測的方法產生了更高的性能。
  • 對預測概念進行干預會導致所有數據集的平衡準確性顯著提高,其中 MMed 的平均改進幅度最大。

診斷可解釋性

  • 所提出的方法能夠提供基於臨床概念的解釋以及基於這些概念的診斷。
  • 該方法確保了模型決策過程中的可解釋性和透明度。

局限性

  • 基於人工智能的方法在診斷皮膚病變方面已顯示出可喜的成果,但它們在臨床環境中的實際效果在很大程度上仍未得到探索。
  • 許多研究側重於受控數據集和場景,這些數據集和場景缺乏疾病和膚色的多樣性。
  • 因此,需要獲取、註釋和管理多樣化數據,以及臨床醫生和人工智能研究人員之間的密切合作,以提高透明度、可解釋性以及人工智能融入臨床實踐的準確性。

結論和未來工作

  • 該研究提出了一種新穎的兩階段方法,該方法利用現成的視覺語言模型 (VLM) 來預測臨床概念,並利用大型語言模型 (LLM) 來生成基於這些概念的疾病診斷。
  • 這種方法增強了決策的透明度和可解釋性,這對於醫學用例等高風險應用至關重要。
  • 對三個皮膚病變數據集的評估表明,該方法優於傳統的概念瓶頸模型 (CBM) 和最先進的可解釋方法,並且不需要額外的訓練,並且僅使用了一些演示示例,從而解決了 CBM 的兩個主要限制。
  • 此外,該方法可以輕鬆地整合新概念而無需重新訓練,並支持測試時干預。
  • 雖然該方法僅在皮膚圖像數據集上進行了評估,但它具有通用性,可以應用於其他領域。
  • 在未來的研究中,作者計劃探索視覺解釋的整合,以進一步增強信任度並促進自動診斷系統在臨床環境中的應用。
edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
PH2 數據集包含黑色素細胞病變的皮膚鏡圖像,包括“黑色素瘤”和兩種“痣”。 Derm7pt 包含超過 2,000 張臨床和皮膚鏡圖像。 HAM10000 包含 10,015 張不同身體部位的各種皮膚病變的皮膚鏡圖像。
引述
“The main challenges hindering the adoption of deep learning-based systems in clinical settings are the scarcity of annotated data and the lack of interpretability and trust in these systems.” “Concept Bottleneck Models (CBMs) offer inherent interpretability by constraining the final disease prediction on a set of human-understandable concepts.” “By simulating the two stages of a CBM, we utilize a pretrained Vision Language Model (VLM) to automatically predict clinical concepts, and a Large Language Model (LLM) to generate disease diagnoses based on the predicted concepts.”

深入探究

除了皮膚病變診斷之外,這種基於兩階段概念的方法如何在其他醫學成像任務中發揮作用?

這種基於兩階段概念的方法,利用視覺語言模型 (VLM) 預測醫學影像中的臨床概念,並使用大型語言模型 (LLM) 根據這些概念生成診斷,具有高度的通用性,可以應用於皮膚病變診斷以外的醫學影像任務。以下是一些潛在的應用領域: 放射學影像診斷: 可以用於分析 X 光、CT 掃描和 MRI 影像,例如,VLM 可以訓練識別肺部 X 光片中的肺炎相關概念(如浸潤、 consolidation),LLM 則可以根據這些概念生成肺炎診斷,並提供嚴重程度分級。 病理學影像分析: 可以用於分析組織切片影像,例如,VLM 可以訓練識別癌症相關概念(如細胞核異型性、有絲分裂活性),LLM 則可以根據這些概念生成癌症診斷,並預測腫瘤分期和預後。 眼科影像分析: 可以用於分析眼底照片和光學相干斷層掃描 (OCT) 影像,例如,VLM 可以訓練識別糖尿病視網膜病變相關概念(如微血管瘤、出血),LLM 則可以根據這些概念生成診斷,並評估疾病嚴重程度。 總之,這種兩階段概念方法為醫學影像分析提供了一個可解釋且通用的框架,可以應用於各種疾病的診斷和預後評估。

如果用於訓練 VLM 和 LLM 的數據集存在偏差,那麼這種方法如何確保公平性和準確性,尤其是在膚色多樣性方面?

如果訓練數據集存在偏差,特別是在膚色多樣性方面,那麼這種方法在公平性和準確性方面將面臨挑戰。以下是一些應對策略: 數據集去偏差: 數據增強: 使用數據增強技術,例如顏色變換、圖像旋轉和翻轉,可以增加數據集的多樣性,並減少對特定膚色的偏差。 重新採樣: 對數據集進行重新採樣,增加代表性不足的膚色樣本數量,可以平衡數據集,並減少偏差。 對抗訓練: 在訓練過程中使用對抗訓練方法,可以鼓勵模型學習與膚色無關的特徵,並減少偏差。 模型公平性評估: 分組評估: 在不同膚色群體上分別評估模型的性能,例如計算不同膚色群體的靈敏度和特異性,可以識別模型是否存在偏差。 公平性指標: 使用公平性指標,例如人口均等、機會均等和預測均等,可以量化模型的偏差程度,並指導模型改進。 模型校準: 使用模型校準技術,例如 Platt 校準和等滲回歸,可以調整模型的預測概率,使其在不同膚色群體上更加一致,並減少偏差。 此外,還需要與醫學倫理專家合作,制定相應的指南和規範,確保模型的開發和應用符合倫理原則,並避免對特定人群造成歧視。

這種基於概念的診斷方法如何與醫學倫理相一致,特別是在患者隱私和數據安全方面?

在患者隱私和數據安全方面,這種基於概念的診斷方法需要遵循以下醫學倫理原則: 患者知情同意: 在使用患者數據進行模型訓練或診斷之前,必須獲得患者的知情同意,並告知患者數據的使用方式、目的和潛在風險。 數據匿名化和去識別化: 在收集、存儲和使用患者數據時,應盡可能對數據進行匿名化和去識別化處理,例如刪除患者姓名、身份證號碼等敏感信息,以保護患者隱私。 數據安全和訪問控制: 應採取嚴格的數據安全措施,例如數據加密、訪問控制和審計追蹤,防止患者數據洩露或被未經授權的人員訪問。 模型透明度和可解釋性: 模型的決策過程應該是透明且可解釋的,以便醫生可以理解模型是如何得出診斷結果的,並在必要時進行人工干預。 責任歸屬: 應明確模型開發者、醫療機構和醫生的責任和義務,確保模型的開發和應用符合醫學倫理和法律法規。 此外,還需要建立完善的數據治理機制,制定相應的政策和流程,確保患者數據的合法、合規和安全使用。
0
star