이 기술 보고서는 의료 분야에서 활용되는 대규모 언어 모델(LLM)의 성능을 평가하기 위한 MEDIC 프레임워크를 소개한다. MEDIC은 다음과 같은 5가지 핵심 차원에서 LLM의 역량을 종합적으로 평가한다:
의료 추론: LLM의 임상 의사결정 능력, 의료 데이터 해석 및 진단 추론 역량 평가
윤리 및 편향 문제: LLM의 공정성, 형평성, 윤리적 고려사항 평가
데이터 및 언어 이해: LLM의 의료 용어, 임상 기록, 검사 결과 등 다양한 의료 데이터 이해 능력 평가
상황 학습: LLM의 새로운 지침, 연구 결과, 환자 정보 등을 활용하여 추론하는 능력 평가
임상 안전 및 위험 평가: LLM의 잠재적 의료 오류, 약물 상호작용 식별, 응급 상황 대응 능력 평가
이를 위해 MEDIC은 폐쇄형 질문 답변, 개방형 질문 답변, 요약, 진료 기록 생성 등 다양한 평가 과제를 활용한다. 특히 요약 및 진료 기록 생성 과제에서는 새로운 "교차 검증" 프레임워크를 도입하여 사실에 기반한 출력, 누락 없는 포괄성 등을 평가한다. 이를 통해 LLM의 의료 분야 활용을 위한 실용적인 성능 지표를 제공한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询