Core Concepts
인공지능(ChatGPT-4)이 방사선 보고서의 오류를 탐지하는 성능이 숙련된 방사선과 전문의 수준에 근접한다.
Abstract
이 연구는 방사선 보고서의 오류 검출에 있어 인공지능(ChatGPT-4)의 활용 가능성을 보여준다. 총 200개의 보고서 중 150개의 오류(누락, 삽입, 문법 오류, 좌우 혼동 등)를 인위적으로 삽입하였다. 이를 6명의 방사선과 전문의(선임 2명, 조교 2명, 레지던트 2명)와 ChatGPT-4가 검토하였다.
그 결과, ChatGPT-4의 오류 탐지율은 82.7%로 선임 방사선과 전문의(89.3%), 조교(80.0%), 레지던트(80.0%)와 유사한 수준이었다. 다만 한 명의 선임 방사선과 전문의는 94.7%의 탁월한 성능을 보였다.
소요 시간 측면에서는 ChatGPT-4가 평균 3.5초로 방사선과 전문의의 25.1초에 비해 매우 빨랐다. 비용 측면에서도 ChatGPT-4가 보고서 당 $0.03로 방사선과 전문의의 $0.42에 비해 훨씬 저렴했다.
이 연구 결과는 인공지능이 방사선 보고서 재검토 과정에서 가장 일반적인 오류를 식별하는 데 도움이 될 수 있음을 시사한다. 그러나 이 결과는 향후 전향적 연구를 통해 확인되어야 하며, 모든 의료기관에서 이를 활용하기 위해서는 대화형 에이전트 교육이 선행되어야 할 것이다.
Stats
ChatGPT-4의 오류 탐지율은 82.7%였다.
선임 방사선과 전문의의 오류 탐지율은 89.3%였다.
조교 방사선과 전문의의 오류 탐지율은 80.0%였다.
레지던트 방사선과 전문의의 오류 탐지율은 80.0%였다.
한 명의 선임 방사선과 전문의의 오류 탐지율은 94.7%였다.
ChatGPT-4의 평균 오류 탐지 소요 시간은 3.5초였다.
방사선과 전문의의 평균 오류 탐지 소요 시간은 25.1초였다.
ChatGPT-4의 보고서 수정 비용은 $0.03였다.
방사선과 전문의의 보고서 수정 비용은 $0.42였다.