이 연구는 의료 분야에서 생성형 대규모 언어 모델(LLM)에 대한 인간 평가 방법론을 체계적으로 검토하였다. 주요 내용은 다음과 같다:
의료 분야에서 LLM의 다양한 응용 분야를 확인하였다. 임상 의사 결정 지원, 의학 교육, 환자 교육 등이 주요 응용 분야로 나타났다.
의료 전문 분야별로 LLM 평가 연구가 수행되고 있음을 확인하였다. 영상의학, 비뇨기과, 일반 외과 등이 주요 분야였다.
인간 평가 방법론을 분석한 결과, 정보의 질, 이해 및 추론, 표현 스타일 및 인격, 안전성 및 위해성, 신뢰성 및 만족도 등 5가지 차원으로 구성된 QUEST 프레임워크를 제안하였다.
평가 샘플 크기, 평가자 선정 및 교육, 평가 프로세스, 통계 분석 등 인간 평가 설계 및 수행을 위한 구체적인 지침을 제시하였다.
기존 연구에서 활용된 다양한 평가 도구와 프레임워크를 소개하고, 의료 분야에 적합한 QUEST 프레임워크를 제안하였다.
이를 통해 생성형 LLM의 안전성, 신뢰성 및 효과성을 보장하기 위한 표준화된 인간 평가 방법론을 제시하였다. 이는 의료 분야에서 LLM 활용을 촉진하고 환자 안전을 보장하는 데 기여할 것으로 기대된다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies