Core Concepts
대규모 언어 모델은 무작위 대조 시험의 이진 결과를 정확하게 추출할 수 있지만, 복잡한 연속형 결과에 대해서는 여전히 제한적인 성능을 보인다.
Abstract
이 연구는 무작위 대조 시험(RCT) 보고서에서 중재, 비교군, 결과(ICO) 정보에 대한 수치 데이터를 자동으로 추출하는 능력을 평가한다. 연구진은 RCT 보고서의 초록과 결과 섹션에 대한 주석이 달린 데이터셋을 구축하고, 다양한 대규모 언어 모델(LLM)의 성능을 평가했다.
연구 결과, 대규모 LLM은 이진 결과에 대해 정확한 추출이 가능했지만, 복잡한 연속형 결과에 대해서는 여전히 제한적인 성능을 보였다. GPT-4와 같은 대규모 모델은 이진 결과 추출에서 가장 우수한 성능을 보였으며, 추출된 데이터를 활용한 메타분석 결과도 수동으로 추출한 결과와 유사했다. 반면 생물의학 분야에 특화된 모델들은 전반적으로 낮은 성능을 보였다.
이 연구는 LLM이 메타분석을 위한 데이터 추출에 활용될 수 있는 가능성을 보여주지만, 복잡한 결과 측정치에 대한 추출 능력 향상이 필요함을 시사한다. 연구진은 이를 위해 더 많은 데이터와 특화된 학습이 필요할 것으로 보인다.
Stats
"이 연구에서 GPT-4는 이진 결과 추출에서 65.5%의 정확도를 보였으며, 추출된 데이터를 활용한 메타분석 결과의 평균 표준화 오차는 0.101이었다."
"Mistral 7B Instruct 모델은 이진 결과 추출에서 16.4%의 정확도를 보였고, 평균 표준화 오차는 0.657이었다."