核心概念
ChatGPT는 의학 연구 논문의 질을 평가하는 데 유용하게 사용될 수 있지만, 저명 의학 저널의 논문에 대해서는 낮은 점수를 부여하는 경향이 있어 주의가 필요하다.
摘要
ChatGPT를 활용한 의학 연구 출판물 질 평가: 저명 의학 저널에서의 불일치 현상 분석
본 연구 논문은 ChatGPT를 사용하여 의학 연구 출판물의 질을 평가하는 방법을 다루고 있으며, 특히 영국의 연구 우수성 프레임워크(REF) 2021에 제출된 임상의학(UoA 1) 분야 논문들을 분석 대상으로 삼았다.
연구 목적
본 연구는 ChatGPT가 의학 연구 논문의 질을 평가하는 데 유용한 도구인지, 특히 이전 연구에서 ChatGPT 점수와 실제 REF 점수 간의 음의 상관관계가 나타났던 임상의학 분야에서 그러한 관계가 실제로 존재하는지 확인하고자 하였다.
방법론
연구진은 Scopus 데이터베이스에서 추출한 9,872개의 임상의학 분야 논문 초록을 ChatGPT 4o-mini 모델에 입력하여 5회 반복 점수를 매기고 평균값을 계산했다. 이후 ChatGPT 점수와 해당 논문을 제출한 기관의 평균 REF 점수 간의 상관관계를 분석했다. 또한, 저널별 평균 ChatGPT 점수와 평균 REF 점수, 평균 인용 횟수 간의 상관관계를 분석하여 저널의 특성이 ChatGPT 점수에 미치는 영향을 살펴보았다. 마지막으로, ChatGPT 점수가 높은 논문과 낮은 논문 그룹에서 자주 나타나는 단어들을 분석하여 ChatGPT가 어떤 유형의 논문에 높거나 낮은 점수를 부여하는지 파악하고자 하였다.
주요 결과
- ChatGPT 점수와 논문 제출 기관의 평균 REF 점수 간에는 약한 양의 상관관계(r=0.134)가 나타났다.
- 기관별 평균 ChatGPT 점수와 평균 REF 점수 간에는 보통 수준의 양의 상관관계(r=0.395)가 나타났으나, Warwick University와 Leicester University는 예외적인 경향을 보였다.
- 저널별 분석 결과, 저널의 평균 ChatGPT 점수는 평균 REF 점수와는 양의 상관관계를 보인 반면, 평균 인용 횟수와는 음의 상관관계를 보였다. 특히 NEJM, The Lancet, JAMA, The BMJ와 같은 저명 의학 저널들은 높은 인용 횟수에도 불구하고 ChatGPT 점수는 낮게 나타났다.
- ChatGPT는 유전학, 세포 생물학, 분자 생물학 등 이론적 연구에 높은 점수를 부여하는 경향을 보였으며, 환자 또는 참가자를 대상으로 하는 임상 연구, 특히 부정적인 결과를 보고하는 연구에는 낮은 점수를 부여하는 경향을 보였다.
결론 및 시사점
본 연구는 ChatGPT가 의학 연구 논문의 질을 평가하는 데 유용한 도구가 될 수 있음을 시사한다. 그러나 ChatGPT는 저명 의학 저널에 게재된 논문, 특히 인간의 건강에 직접적인 영향을 미치는 연구에 대해서는 낮은 점수를 부여하는 경향이 있으므로, ChatGPT 점수를 단독으로 사용하기보다는 다른 평가 지표들과 함께 활용하는 것이 바람직하다.
연구의 한계점 및 후속 연구 제안
본 연구는 영국에서 수행된 연구를 중심으로 분석했기 때문에 다른 국가의 연구 평가 시스템에 적용할 경우 결과가 다를 수 있다. 또한, ChatGPT 모델 및 버전에 따라 결과가 달라질 수 있으며, 향후 더욱 발전된 LLM 모델을 사용하여 연구를 수행할 필요가 있다. 마지막으로, ChatGPT는 논문의 제목과 초록만을 기반으로 평가를 수행하기 때문에 전체 논문 내용을 반영하지 못할 수 있다는 한계점을 지닌다.
統計資料
ChatGPT 점수와 논문 제출 기관의 평균 REF 점수 간의 상관계수: r=0.134
기관별 평균 ChatGPT 점수와 평균 REF 점수 간의 상관계수: r=0.395
저널의 평균 ChatGPT 점수와 평균 REF 점수 간의 상관계수 (상위 50개 저널): r=0.517
저널의 평균 ChatGPT 점수와 평균 인용 횟수 간의 상관계수 (상위 50개 저널): r=-0.245
引述
"This raises the general concept that proteins involved in cytoskeletal functions and appearing organism-specific, may have highly divergent and cryptic orthologs in other species"
"Triple antiplatelet therapy should not be used in routine clinical practice"
"The MTD of sorafenib when used with 30 Gy in 10 fractions was not established due to sorafenib-related systemic toxicity. Severe radiotherapy-related toxicities were also observed. These events suggest this concurrent combination does not warrant further study"