이 기술 보고서는 의료 분야에서 활용되는 대규모 언어 모델(LLM)의 성능을 평가하기 위한 MEDIC 프레임워크를 소개한다. MEDIC은 다음과 같은 5가지 핵심 차원에서 LLM의 역량을 종합적으로 평가한다:
의료 추론: LLM의 임상 의사결정 능력, 의료 데이터 해석 및 진단 추론 역량 평가
윤리 및 편향 문제: LLM의 공정성, 형평성, 윤리적 고려사항 평가
데이터 및 언어 이해: LLM의 의료 용어, 임상 기록, 검사 결과 등 다양한 의료 데이터 이해 능력 평가
상황 학습: LLM의 새로운 지침, 연구 결과, 환자 정보 등을 활용하여 추론하는 능력 평가
임상 안전 및 위험 평가: LLM의 잠재적 의료 오류, 약물 상호작용 식별, 응급 상황 대응 능력 평가
이를 위해 MEDIC은 폐쇄형 질문 답변, 개방형 질문 답변, 요약, 진료 기록 생성 등 다양한 평가 과제를 활용한다. 특히 요약 및 진료 기록 생성 과제에서는 새로운 "교차 검증" 프레임워크를 도입하여 사실에 기반한 출력, 누락 없는 포괄성 등을 평가한다. 이를 통해 LLM의 의료 분야 활용을 위한 실용적인 성능 지표를 제공한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Prav... kl. arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07314.pdfDybere Forespørgsler