이 연구는 LLM 생성 의료 설명 논거를 평가하기 위한 새로운 방법론을 소개한다. 기존의 점수 기반 평가 방식의 한계를 극복하고자 대리 과제와 순위 기반 접근을 활용하였다.
핵심 내용은 다음과 같다:
인간 평가 기준과 잘 부합하는 LLM 평가기를 개발하였다. 이를 위해 판별 모델 기반의 LLM 평가기를 사용하여 생성 LLM의 편향을 최소화하였다.
다양한 대리 과제(의료 문제 풀이, 허위 정보 탐지, 임상시험 자연어 추론)를 활용하여 LLM 생성 논거를 평가하고, 각 과제의 적합성을 분석하였다.
인간 평가와의 일치도를 높이기 위해 순위 기반 접근을 사용하였다. 이를 통해 점수 최대화 보다는 순위 정확도에 초점을 맞추었다.
대조군 사례를 활용하여 LLM 평가기의 강건성을 검증하였다. 이를 통해 의미 있는 논거와 무관한 내용을 구분할 수 있음을 확인하였다.
이 연구는 의료 분야에서 LLM 생성 텍스트를 효과적이고 효율적으로 평가할 수 있는 방법을 제시한다. 또한 대리 과제 선택의 중요성과 인간 평가와의 일치도 향상을 위한 순위 기반 접근의 유용성을 보여준다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询