이 논문은 의료 LLM의 자가 진단을 위한 원자 지식 보유 능력을 정량적으로 평가하기 위해 SDAK 벤치마크를 구축하였다.
먼저 사용자 질의 데이터셋을 분석하여 17가지 유형의 의료 관련 원자 지식을 도출하였다. 각 유형별로 사실 주장과 반대 주장으로 구성된 원자 지식 항목을 구축하였다.
이를 바탕으로 LLM의 지시 따르기 비율, 사실 정확도, 정확도 신뢰성 등 3가지 평가 지표를 제안하였다. 실험 결과, 대부분의 중국 의료 LLM이 일반 LLM에 비해 지시 따르기 능력이 다소 저하되었으며, 의료 도메인 지식 보유 수준도 크게 향상되지 않았음을 확인하였다.
추가 분석을 통해 중국 의료 LLM의 오류는 주로 맹목적 동의(sycophancy)에서 비롯되며, GPT-4에 비해 전문 의료 지식 측면에서 큰 격차가 있음을 발견하였다. 또한 실제 의사-환자 대화 데이터보다 증류 데이터를 활용한 fine-tuning이 원자 지식 보유를 더 효과적으로 향상시킨다는 점을 확인하였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yaxin Fan,Fe... a las arxiv.org 04-03-2024
https://arxiv.org/pdf/2310.11722.pdfConsultas más profundas