Core Concepts
CLUE 벤치마크는 실제 임상 환경에서의 다양한 과제를 통해 특화된 의료 언어 모델과 일반 도메인 언어 모델의 성능을 종합적으로 평가한다.
Abstract
이 연구는 CLUE라는 새로운 벤치마크를 소개한다. CLUE는 실제 임상 환경에서의 다양한 과제를 통해 대규모 언어 모델(LLM)의 성능을 평가하는 것을 목표로 한다.
CLUE는 다음과 같은 특징을 가진다:
MIMIC IV 퇴원 요약에서 파생된 두 가지 새로운 과제인 MeDiSumQA와 MeDiSumCode를 포함한다.
기존의 MedNLI, MeQSum, Problem Summaries, LongHealth 등 4개의 과제도 포함한다.
이를 통해 특화된 의료 언어 모델과 일반 도메인 언어 모델의 임상 적용성을 종합적으로 평가한다.
상용 모델은 제외하고 오픈소스 모델만을 대상으로 평가한다.
실험 결과, 바이오메디컬 사전 학습이 도움이 되는 경우도 있지만 그렇지 않은 경우도 있음을 확인했다. 또한 지침 학습이 복잡한 과제에서 큰 성능 향상을 가져왔다. 이를 통해 향후 의료 분야에 적합한 언어 모델 개발을 위한 시사점을 제공한다.
Stats
의료 문서의 평균 단어 수는 MedNLI 20.81, MeQSum 60.77, Problem Summaries 123.5, MeDiSumQA 1451.79, MeDiSumCode 1515.32, LongHealth 5536.82 단어이다.