이 연구는 ChatGPT 3.5와 4.0 버전의 외래 진료 안내 응답 일관성을 평가하였다.
내부 일관성 분석 결과, ChatGPT 4.0이 3.5 버전에 비해 유의미하게 높은 일관성을 보였다(p=0.03). 두 버전 모두 상위 추천 부서에 대한 일관성은 중간 수준이었다.
버전 간 일관성 분석 결과, 평균 일관성 점수가 1.43/3, 중간값이 1로 나타나 두 버전 간 추천 일치도가 낮았다. 상위 추천 부서의 일치도도 50%에 그쳤다.
ChatGPT 3.5의 응답이 4.0 버전에 비해 더 완전한 경향을 보였다(p=0.02).
이 결과는 의료 현장에서 ChatGPT의 활용 가능성과 한계를 보여준다. 향후 연구에서는 인간공학 및 사용자 경험 원칙에 기반하여 LLM과 의료 시스템의 최적화된 통합이 필요할 것으로 보인다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究