GMAI-MMBench是一个全面的医疗AI评估基准,旨在评估大型视觉语言模型(LVLMs)在各种临床场景中的性能。该基准由以下三个关键特点组成:
全面的医疗知识:GMAI-MMBench收集了来自全球的284个高质量医疗数据集,涵盖38种医疗影像模式。
结构化的数据组织:GMAI-MMBench将数据分为18种临床VQA任务和18个临床科室,并采用词汇树结构进行组织,方便用户根据需求定制评估任务。
多感知粒度:GMAI-MMBench涵盖从图像级到区域级的交互方式,提供不同程度的感知细节。
通过对50种LVLMs进行评估,结果显示即使是最先进的GPT-4o也只达到53.96%的准确率,表明当前LVLMs在满足临床需求方面还存在很大的改进空间。此外,评估还发现了LVLMs在感知粒度、医疗领域知识、回答相关性等方面的不足,需要进一步提升。GMAI-MMBench将推动医疗AI领域的发展,促进更好的LVLMs的出现。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Pengcheng Ch... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2408.03361.pdfDeeper Inquiries