의료 분야에서 LLM 생성 텍스트를 평가하는 것은 매우 어려운 과제이다. 이 연구는 대리 과제와 순위 기반 접근을 활용하여 인간 평가 기준과 잘 부합하는 LLM 평가기를 개발하였다.