核心概念
GMAI-MMBench是一個全面的多模態評估基準,旨在全面評估大型視覺語言模型在醫療領域的能力,包括涵蓋38種醫療影像模態、18種臨床任務和18個臨床科室,以及4種感知粒度。
摘要
GMAI-MMBench是一個全面的多模態評估基準,旨在全面評估大型視覺語言模型在醫療領域的能力。它由以下三個主要特點組成:
全面的醫療知識:GMAI-MMBench收集了來自全球的284個高質量醫療數據集,涵蓋38種醫療影像模態。
結構化的數據組織:GMAI-MMBench將所有數據點組織成一個詞彙樹結構,包括18種臨床視覺問答任務和18個臨床科室,方便用戶根據需求定制評估任務。
多感知粒度:GMAI-MMBench涵蓋從整體影像到局部區域的不同感知粒度,包括圖像級、框級、掩膜級和輪廓級,以全面評估模型的交互能力。
通過對50種大型視覺語言模型的評估,結果顯示即使是最先進的GPT-4o模型也只達到53.96%的準確率,表明當前模型在滿足臨床需求方面仍存在很大的改進空間。GMAI-MMBench識別出5個關鍵不足,包括感知錯誤、缺乏醫療領域知識、回答無關、安全協議拒絕回答等,為未來模型的改進提供了指引。
統計資料
GMAI-MMBench涵蓋38種醫療影像模態,包括X光、CT、MRI、超聲等。
GMAI-MMBench包含18種臨床視覺問答任務和18個臨床科室。
GMAI-MMBench提供4種感知粒度,包括圖像級、框級、掩膜級和輪廓級。
引述
"即使是最先進的GPT-4o模型也只達到53.96%的準確率,表明當前模型在滿足臨床需求方面仍存在很大的改進空間。"
"GMAI-MMBench識別出5個關鍵不足,包括感知錯誤、缺乏醫療領域知識、回答無關、安全協議拒絕回答等,為未來模型的改進提供了指引。"