核心概念
本文提出了一个事实检查式的自我诊断原子知识基准(SDAK),通过评估医学语言模型对医学原子知识的记忆能力,为改进中国医学语言模型提供更精准、可靠和深入的洞见。
要約
本文提出了一个名为自我诊断原子知识基准(SDAK)的事实检查式评估方法,用于评估中国医学语言模型在自我诊断场景下的医学知识记忆能力。
首先,作者通过对自我诊断查询的主题分析,提取出17种最常见的医学原子知识类型。然后,根据公开的医学网站内容,为每种类型构建了一对事实性和非事实性的原子知识条目。为了避免模型的附和偏差,模型需要同时支持事实性声明和否定非事实性声明,才算掌握该原子知识。
作者设计了三个评估指标:指令遵循率、事实准确率和准确性可靠性。前两个可自动评估,后者需要人工验证。实验结果显示,尽管中国医学语言模型在某些方面有所进步,但与GPT-4相比仍存在较大差距,特别是在一些专业医学知识方面。进一步分析发现,模型错误主要源于附和倾向,而使用蒸馏数据可以更有效地帮助开源模型记忆更多医学原子知识,相比真实的医患对话数据效果更佳。
統計
中国医学语言模型在自我诊断原子知识基准上的事实准确率仅为3.35%至39.41%,远低于GPT-4的65.42%。
引用
"中国医学语言模型在某些专业医学知识方面仍存在较大差距,与GPT-4相比还有很大提升空间。"
"使用蒸馏数据可以更有效地帮助开源模型记忆更多医学原子知识,相比真实的医患对话数据效果更佳。"