本研究提出了 MedViLaM,一個統一的視覺-語言模型,能夠靈活地編碼和解釋各種形式的醫療數據,包括臨床語言和影像。為了支持這樣的多任務模型的創建,研究團隊整理了 MultiMedBench,一個包含多個不同任務的綜合預訓練數據集和基準測試集,如連續問答、多標籤疾病分類、疾病定位、放射學報告生成和摘要。
MedViLaM 在所有 MultiMedBench 任務中都表現出色,通常大幅超過其他通用模型。此外,研究還展示了 MedViLaM 在新醫療概念和任務上的零shot泛化能力、跨不同任務的有效遷移學習,以及零shot醫學推理的出現。在各種醫學影像數據集上的實驗也證明了 MedViLaM 優於現有方法的泛化性能,表明其未來在臨床應用中的潛力。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies