核心概念
提出一個名為"Arges"的深度學習框架,利用時空轉換器和位置編碼來有效地評估潰瘍性結腸炎內視鏡視頻的嚴重程度。
摘要
本研究提出了"Arges"框架,用於有效處理和分析潰瘍性結腸炎(UC)內視鏡視頻的內容,以獲得洞見。該框架包括兩個主要組件:
-
基礎模型(ArgesFM):
- 使用大規模和多樣化的臨床試驗數據(61M幀,3927個視頻)進行自監督學習預訓練,以獲得可靠和通用的特徵。
- 採用視覺轉換器(ViT-Base)作為編碼器,並使用DINOv2進行知識蒸餾。
-
下游分類器(ArgesMES/ArgesUCEIS):
- 利用ArgesFM提取的特徵,採用帶有位置編碼的轉換器網絡和注意力機制的多實例學習(MIL)聚合器,有效地捕捉時空信息。
- 獨立訓練四個下游模型,分別用於評估Mayo內視鏡評分(MES)和三個UCEIS(潰瘍性結腸炎內視鏡嚴重程度指數)組成分數。
實驗結果表明,與最先進的方法相比,Arges在MES分類的F1分數上提高了4.1%,在三個UCEIS組成分數上分別提高了18.8%、6.6%和3.8%。在未見過的前瞻性臨床試驗數據上的表現也證明了該框架的良好泛化能力。此外,注意力機制提高了模型的可解釋性,使臨床專家能夠更好地理解和控制模型的質量。
统计
潰瘍性結腸炎是一種影響約500萬人的慢性炎症性腸病。
在臨床試驗中,通常使用Mayo內視鏡評分(MES)和潰瘍性結腸炎內視鏡嚴重程度指數(UCEIS)來評估結腸疾病的嚴重程度。
專家人工評估視頻是耗時且容易受到評估者之間差異的影響,因此需要自動化解決方案。
引用
"準確評估內視鏡視頻中的疾病嚴重程度對於評估臨床試驗中藥物療效至關重要。"
"由於缺乏大規模的標註數據集,基於完全監督的網絡在潰瘍性結腸炎中的應用受到限制。"
"時間感知是手動和算法性疾病評分的重要組成部分,表明有必要超越靜態的基於幀的模型。"