핵심 개념
의료 분야에서 활용되는 대규모 언어 모델(LLM)의 성능을 다각도로 평가하기 위한 MEDIC 프레임워크를 소개한다. MEDIC은 의료 추론, 윤리 및 편향, 데이터 및 언어 이해, 상황 학습, 임상 안전 및 위험 평가 등 5가지 핵심 차원에서 LLM의 역량을 종합적으로 평가한다.
초록
이 기술 보고서는 의료 분야에서 활용되는 대규모 언어 모델(LLM)의 성능을 평가하기 위한 MEDIC 프레임워크를 소개한다. MEDIC은 다음과 같은 5가지 핵심 차원에서 LLM의 역량을 종합적으로 평가한다:
의료 추론: LLM의 임상 의사결정 능력, 의료 데이터 해석 및 진단 추론 역량 평가
윤리 및 편향 문제: LLM의 공정성, 형평성, 윤리적 고려사항 평가
데이터 및 언어 이해: LLM의 의료 용어, 임상 기록, 검사 결과 등 다양한 의료 데이터 이해 능력 평가
상황 학습: LLM의 새로운 지침, 연구 결과, 환자 정보 등을 활용하여 추론하는 능력 평가
임상 안전 및 위험 평가: LLM의 잠재적 의료 오류, 약물 상호작용 식별, 응급 상황 대응 능력 평가
이를 위해 MEDIC은 폐쇄형 질문 답변, 개방형 질문 답변, 요약, 진료 기록 생성 등 다양한 평가 과제를 활용한다. 특히 요약 및 진료 기록 생성 과제에서는 새로운 "교차 검증" 프레임워크를 도입하여 사실에 기반한 출력, 누락 없는 포괄성 등을 평가한다. 이를 통해 LLM의 의료 분야 활용을 위한 실용적인 성능 지표를 제공한다.
통계
대규모 언어 모델일수록 의료 지식 문제 풀이 성능이 우수하다.
안전성 및 윤리 측면에서는 모델 크기와 성능 향상 간 관계가 약하다.
개방형 질문에 대한 응답 품질 평가에서 모든 모델이 안전성 및 윤리 고려 부문에서 상대적으로 낮은 점수를 받았다.
인용구
"의료 분야에서 LLM의 통합이 시작되면서 이들 AI 시스템의 역량을 신속하고 자동화된 방식으로 평가할 수 있는 포괄적인 접근법이 필요해졌다."
"MEDIC은 의료 분야 LLM의 실용적인 구현을 위해 이론적 역량과 실제 성능 간 격차를 해소하고자 한다."