이 연구는 GPT-4V의 흉부 방사선 영상 소견 탐지 성능을 평가하였다. 100개의 흉부 방사선 영상과 보고서를 수집하여 전문의와 레지던트가 참조 기준을 설정하였다.
영상 데이터는 NIH와 MIDRC 데이터셋에서 각각 50개씩 무작위로 선별하였다. GPT-4V의 성능은 제로샷 학습(사전 예시 없이 수행)과 소수 샷 학습(2개 예시 제공) 상황에서 평가되었다.
제로샷 학습에서 GPT-4V는 ICD-10 코드 탐지 시 NIH 데이터셋에서 F1 점수 7.3%, MIDRC 데이터셋에서 18.2%를 기록했다. ICD-10 코드와 측면성 모두를 고려할 경우 NIH 데이터셋에서 F1 점수 4.5%, MIDRC 데이터셋에서 6.4%를 보였다.
소수 샷 학습에서는 성능이 향상되었다. ICD-10 코드 탐지 시 NIH 데이터셋에서 F1 점수 11.1%, MIDRC 데이터셋에서 34.3%를 기록했다. ICD-10 코드와 측면성 모두를 고려할 경우 NIH 데이터셋에서 F1 점수 2.8%, MIDRC 데이터셋에서 12.1%를 보였다.
이 결과는 GPT-4V가 실제 임상 데이터에서 제한적인 성능을 보이지만, 몇 가지 예시를 제공하면 성능이 향상될 수 있음을 시사한다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究