이 연구는 ChatGPT Vision의 피부 병변 진단 성능을 평가했다. 연구진은 국제 피부 영상 협력 아카이브에서 추출한 피부 병변 사진 100개(악성 흑색종 50개, 양성 모반 50개)를 ChatGPT Vision에 제출하고 진단명을 요청했다.
ChatGPT Vision의 첫 번째 진단명과 병리학적 진단을 비교한 결과, 민감도 32%, 특이도 40%, 정확도 36%로 나타났다. 상위 3개 진단명에 정확한 진단이 포함된 경우는 민감도 56%, 특이도 53%, 정확도 55%였다.
악성 병변과 양성 병변을 구분하는 능력도 부족했다. 첫 번째 진단명 기준 민감도 46%, 특이도 78%, 정확도 62%였고, 상위 3개 진단명 기준 민감도 78%, 특이도 47%, 정확도 62%였다.
이 결과는 ChatGPT Vision의 피부 병변 진단 성능이 기존 인공지능 알고리즘에 크게 미치지 못함을 보여준다. 악성 병변을 놓치거나 양성 병변을 악성으로 잘못 진단할 위험이 높아 임상에 적용하기는 어렵다. 다만 이번 연구는 표본 수가 적고 다양한 병변이 포함되지 않았다는 한계가 있다.
To Another Language
from source content
www.medscape.com
Key Insights Distilled From
by Marie-Line B... at www.medscape.com 07-10-2024
https://www.medscape.com/viewarticle/tell-me-chatgpt-this-melanoma-2024a1000co7Deeper Inquiries