本研究では、ポーランドの医師国家試験(Państwowy Egzamin Specjalizacyjny、PES)の297の試験問題を用いて、3つのGPTモデル(gpt-3.5-turbo、gpt-4-0613、gpt-4-0125-preview)の性能を評価した。
結果として、gpt-3.5-turboは単一の試験にも合格できなかったのに対し、gpt-4-0613は184問(62%)、gpt-4-0125-previewは222問(75%)に合格することができた。GPTモデルの性能は医療分野によって大きく異なり、家庭医療などの分野では高い成績を収めたが、歯科関連の分野では低い成績に留まった。
これらの結果は、医療分野におけるAIの活用可能性を示唆している。GPTモデルは医療従事者の業務を支援する可能性があり、特に人手不足が課題となっているポーランドの医療現場での活用が期待される。ただし、GPTモデルは医療現場での直接的な診療を代替するものではなく、医療従事者の補助的な役割に留まると考えられる。
To Another Language
from source content
arxiv.org
Deeper Inquiries