핵심 개념
本研究评估了ChatGPT 3.5和4.0版本在中国门诊分诊指导中的一致性,为将大语言模型集成到门诊服务中提供了见解。
초록
本研究旨在评估ChatGPT 3.5和4.0版本在中国门诊分诊指导中的一致性。
研究方法:
- 收集了52个中文症状描述问题,分别输入到ChatGPT 3.5和4.0版本中,每个问题重复3次。
- 记录并分析了每个版本的回答一致性,包括内部一致性和两个版本之间的一致性。
研究结果:
- ChatGPT-4.0的内部一致性显著高于ChatGPT-3.5(p=0.03),两个版本的前3推荐科室的一致性分别为71.2%和59.6%。
- 但两个版本之间的一致性较低,平均一致性得分为1.43/3,中位数为1,仅50%的首选推荐完全一致。
- ChatGPT-3.5的回答更完整,而ChatGPT-4.0的回答可能存在信息处理和生成方面的差异(p=0.02)。
结论:
- ChatGPT在门诊分诊指导中有潜力,但需要进一步优化以提高一致性和准确性。
- 未来研究应关注基于人机工程学原则优化大语言模型在医疗系统中的集成,以满足有效门诊分诊的具体需求。
통계
98.1%的回答是有效的
77.2%的回答是完整的,其中ChatGPT-3.5的完整率高于ChatGPT-4.0(p=0.02)
58.4%的首选推荐科室概率大于50%,11.2%大于80%
61.1%的首选推荐科室可成功治疗症状,5.9%概率大于80%
인용구
"本研究评估了ChatGPT 3.5和4.0版本在中国门诊分诊指导中的一致性,为将大语言模型集成到门诊服务中提供了见解。"
"ChatGPT在门诊分诊指导中有潜力,但需要进一步优化以提高一致性和准确性。"
"未来研究应关注基于人机工程学原则优化大语言模型在医疗系统中的集成,以满足有效门诊分诊的具体需求。"