核心概念
本研究提出了一個統一的視覺-語言模型 MedViLaM,能夠靈活地編碼和解釋各種形式的醫療數據,包括臨床語言和影像,並在多個醫療任務上展現出強大的性能。
摘要
本研究提出了 MedViLaM,一個統一的視覺-語言模型,能夠靈活地編碼和解釋各種形式的醫療數據,包括臨床語言和影像。為了支持這樣的多任務模型的創建,研究團隊整理了 MultiMedBench,一個包含多個不同任務的綜合預訓練數據集和基準測試集,如連續問答、多標籤疾病分類、疾病定位、放射學報告生成和摘要。
MedViLaM 在所有 MultiMedBench 任務中都表現出色,通常大幅超過其他通用模型。此外,研究還展示了 MedViLaM 在新醫療概念和任務上的零shot泛化能力、跨不同任務的有效遷移學習,以及零shot醫學推理的出現。在各種醫學影像數據集上的實驗也證明了 MedViLaM 優於現有方法的泛化性能,表明其未來在臨床應用中的潛力。
統計資料
醫療影像數據集包含超過 20.5 百萬個多任務導向的指令對(與 1.8 百萬個醫療影像相關)和臨床標註對。
在 12 類胸部X光影像基準測試中,MedViLaM 的表現優於其他方法。
在冠狀動脈斑塊分類和定位任務中,MedViLaM 的整體準確率分別達到 34.5% 和 75.1%。
在內窺鏡視頻的異常檢測和定位任務中,MedViLaM 的準確率達到 80.5%。
引述
"MedViLaM 展示了在新醫療概念和任務上的零shot泛化能力、跨不同任務的有效遷移學習,以及零shot醫學推理的出現。"
"在各種醫學影像數據集上的實驗也證明了 MedViLaM 優於現有方法的泛化性能,表明其未來在臨床應用中的潛力。"