本文提出了 MedQA-CS,一個基於醫學教育中客觀結構性臨床考試 (OSCE) 的 AI 結構性臨床考試 (AI-SCE) 框架。MedQA-CS 包含兩個主要組成部分:
MedStuLLM (LLM 作為醫學生): 要求 LLM 完成模擬病人就診的各個步驟,包括病史採集、體檢、總結診斷和回答病人提出的問題等。這些任務旨在全面評估 LLM 在臨床技能方面的表現。
MedExamLLM (LLM 作為考官): 設計了一套詳細的評分標準,用於評估 MedStuLLM 在各個步驟的表現。通過與專家評分的對比,驗證 LLM 作為考官的可靠性。
實驗結果表明,與傳統的知識型測試相比,LLM 在 MedQA-CS 的表現明顯較差,突出了臨床技能評估的獨特挑戰。此外,研究還探討了領域適應訓練和人類偏好對齊等方法對 LLM 臨床技能的影響。總的來說,MedQA-CS 為全面評估 LLM 在醫療領域的能力提供了一個重要的基準測試框架。
翻譯成其他語言
從原文內容
arxiv.org
深入探究