이 연구는 GPT-3.5, GPT-4-0613, GPT-4-0125-preview 모델의 폴란드 전문의 자격 시험(PES) 성적을 평가했다. 연구 결과, GPT-3.5 모델은 어떤 시험도 통과하지 못했지만, GPT-4-0613 모델은 184개(62%), GPT-4-0125-preview 모델은 222개(75%)의 시험을 통과했다. 모델의 성능은 전문 분야에 따라 크게 달랐는데, 가정의학과 같은 일반 분야에서는 우수한 성적을 보였지만 치과 분야에서는 저조했다. 이는 모델이 최신 지침을 구분하지 못하고 모든 데이터를 동등하게 취급하는 한계 때문으로 보인다. 이 연구 결과는 AI 기술이 폴란드 의료 서비스 혁신에 기여할 수 있음을 시사한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jaku... kl. arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01589.pdfDybere Forespørgsler