이 논문은 LLM의 안전하고 신뢰할 수 있는 임상 적용을 위한 자동 평가 패러다임을 제안한다.
첫째, 임상 실무 경로를 기반으로 LLM 특화 임상 경로(LCP)를 정의하여 LLM이 갖추어야 할 임상 역량을 규정한다. LCP는 정보 완전성, 행동 표준화, 지침 합리성, 진단 논리성, 치료 논리성, 임상 적용성 등 6가지 핵심 역량으로 구성된다.
둘째, 의료 교육에서 활용되는 표준화된 환자(SP)를 도입하여 평가 데이터를 수집한다. SP는 실제 환자의 특성을 재현하여 의사 교육에 활용되는 개인으로, 이를 통해 평가 데이터의 완전성을 보장할 수 있다.
셋째, 검색 강화 평가(RAE) 알고리즘을 개발하여 SP와 의사 에이전트 간 상호작용 환경을 시뮬레이션하고, LCP에 따라 의사 에이전트의 행동을 자동으로 평가한다.
이러한 패러다임을 비뇨기과 분야에 적용하여 LCP, SP 데이터셋, RAE 알고리즘으로 구성된 RJUA-SPs 벤치마크를 구축하였다. 실험 결과, 제안된 접근법의 효과성을 입증하고 LLM의 안전하고 신뢰할 수 있는 임상 적용을 위한 통찰을 제공한다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania