Centrala begrepp
ChatGPT 能有效評估大多數學術領域的研究品質,包括臨床醫學,儘管它可能低估了一些頂尖醫學期刊中研究的價值。
Sammanfattning
書目資訊
Thelwall, M., Jiang, X., & Bath, P. A. (2024). Evaluating the quality of published medical research with ChatGPT. [學術期刊名稱], [卷號], [頁碼].
研究目標
本研究旨在探討 ChatGPT 在評估已發表醫學研究品質方面的有效性,特別關注其在臨床醫學領域的表現。
研究方法
研究人員使用 ChatGPT 4o-mini 模型對提交給英國 2021 年研究卓越框架(REF)臨床醫學評估單元(UoA 1)的 9,872 篇期刊文章進行評分。他們將 ChatGPT 評分與部門平均 REF 評分、期刊平均 REF 評分以及期刊平均引用次數進行了比較。
主要發現
- ChatGPT 評分與部門平均 REF 評分呈顯著正相關 (r=0.134),表明 ChatGPT 能夠一定程度上評估臨床醫學研究的品質。
- 部門平均 ChatGPT 評分與部門平均 REF 評分之間存在中等程度的正相關 (r=0.395)。
- ChatGPT 評分與期刊平均引用次數呈負相關,顯示 ChatGPT 可能低估了一些頂尖醫學期刊中研究的價值。
- ChatGPT 傾向於給予理論性研究較高的評分,而對直接影響人類健康決策的研究給予較低的評分。
主要結論
ChatGPT 可以作為評估臨床醫學研究品質的輔助工具,但應注意其可能低估某些頂尖醫學期刊中研究價值的傾向。
研究意義
本研究為 ChatGPT 在評估醫學研究品質方面的應用提供了證據,並強調了在使用此類工具時需要考慮的潛在偏差。
研究限制與未來方向
- 本研究僅使用了來自英國單一國家的數據,可能無法代表全球醫學研究的品質。
- 未來研究可以使用更大的數據集和更先進的語言模型來驗證這些發現。
- 未來研究可以進一步探討 ChatGPT 低估某些頂尖醫學期刊中研究價值的原因。
Statistik
ChatGPT 評分與部門平均 REF 評分的相關係數為 0.134。
部門平均 ChatGPT 評分與部門平均 REF 評分的相關係數為 0.395。
研究分析了提交給英國 2021 年研究卓越框架(REF)臨床醫學評估單元(UoA 1)的 9,872 篇期刊文章。
Citat
"The results show for the first time that ChatGPT score estimates correlate positively with an indicator of article quality for clinical medicine journal articles."
"The main caveat to the above conclusion is that ChatGPT seems to systematically undervalue research in some prestigious medical journals, whether because of the journal’s style or by overlooking the contribution of medical studies about human health."