이 연구는 ChatGPT 3.5와 4.0 버전의 외래 진료 안내 응답 일관성을 평가하였다.
내부 일관성 분석 결과, ChatGPT 4.0이 3.5 버전에 비해 유의미하게 높은 일관성을 보였다(p=0.03). 두 버전 모두 상위 추천 부서에 대한 일관성은 중간 수준이었다.
버전 간 일관성 분석 결과, 평균 일관성 점수가 1.43/3, 중간값이 1로 나타나 두 버전 간 추천 일치도가 낮았다. 상위 추천 부서의 일치도도 50%에 그쳤다.
ChatGPT 3.5의 응답이 4.0 버전에 비해 더 완전한 경향을 보였다(p=0.02).
이 결과는 의료 현장에서 ChatGPT의 활용 가능성과 한계를 보여준다. 향후 연구에서는 인간공학 및 사용자 경험 원칙에 기반하여 LLM과 의료 시스템의 최적화된 통합이 필요할 것으로 보인다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Dou Liu,Ying... lúc arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.00728.pdfYêu cầu sâu hơn