이 논문은 대형 언어 모델(LLM)의 의료 분야 활용을 위해 필요한 고급 임상 기술(CS)을 평가하기 위한 MedQA-CS 프레임워크를 소개한다. 기존 벤치마크는 주로 지식 평가에 초점을 맞추지만, MedQA-CS는 의료 교육의 객관적 구조화된 임상 시험(OSCE)에서 영감을 받아 개발되었다.
MedQA-CS는 두 가지 과제로 구성된다:
실험 결과, MedQA-CS는 기존 지식 기반 벤치마크보다 LLM에게 더 큰 도전과제로 나타났다. 또한 LLM-as-Judge 프레임워크를 활용하여 MedExamLLM을 설계할 경우, 전문가 평가와 높은 상관관계를 보였다. 이를 통해 MedQA-CS가 LLM의 임상 기술을 종합적으로 평가할 수 있는 유용한 벤치마크임을 확인하였다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Zonghai Yao,... о arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01553.pdfГлибші Запити