核心概念
即使大型多模態模型在現有的醫療視覺問答基準測試中取得了高精度,但在簡單的探測性評估中,它們的表現卻遠遜於隨機猜測。這突顯了這些模型在處理醫療診斷問題時的重大局限性。
摘要
本研究介紹了ProbMed數據集,旨在通過探測性評估和程序性診斷,全面評估大型多模態模型在醫療影像診斷中的表現。
探測性評估包括將原始問題與含有虛構屬性的否定問題配對,以測試模型區分實際條件和虛假條件的能力。程序性診斷則要求模型在各種診斷維度上進行推理,包括模態識別、器官識別、臨床發現、異常情況和位置定位。
研究結果顯示,即使是表現最佳的模型,如GPT-4o、GPT-4V和Gemini Pro,在專門的診斷問題上的表現也接近於隨機猜測,突顯了它們在處理細粒度醫療查詢方面的局限性。引入對抗性配對大幅降低了所有模型的準確率,突出了對抗性測試在醫療視覺問答中的重要性。
此外,CheXagent模型表明,專門的領域知識對於提高模型性能至關重要。它展示了在一種器官上獲得的專業知識可以以零樣本的方式轉移到同一器官的另一種成像模態。
總的來說,本研究突出了大型多模態模型在醫療診斷可靠性方面的重大缺陷,強調了需要更加健壯的評估方法來確保這些模型在關鍵醫療應用中的準確性和可靠性。這項研究有助於推動更值得信賴的AI系統在醫療保健領域的發展,最終改善診斷結果和患者護理。
統計資料
在探測性評估中引入對抗性配對後,GPT-4o、GPT-4V和Gemini Pro的準確率平均下降35.78%。
即使是表現最佳的模型,在專門的診斷問題上的準確率也接近於隨機猜測。
引述
"即使大型多模態模型在現有的醫療視覺問答基準測試中取得了高精度,但在簡單的探測性評估中,它們的表現卻遠遜於隨機猜測。"
"引入對抗性配對大幅降低了所有模型的準確率,突出了對抗性測試在醫療視覺問答中的重要性。"
"CheXagent模型表明,專門的領域知識對於提高模型性能至關重要。"