In dieser retrospektiven Studie wurde die Leistung von GPT-4V bei der Erkennung radiologischer Befunde aus Thorax-Röntgenaufnahmen untersucht. 100 Thorax-Röntgenaufnahmen mit zugehörigen Radiologieberichten wurden von einem Expertenteam aus Radiologen und Assistenzärzten annotiert, um einen Referenzstandard zu etablieren.
In der Nullshot-Einstellung erreichte GPT-4V bei der Erkennung von ICD-10-Codes allein auf dem NIH-Datensatz eine G&R+/R+ von 12,3%, eine G&R+/G+ von 5,8% und einen F1-Wert von 7,3%. Auf dem MIDRC-Datensatz waren die Werte mit 25,0% (G&R+/R+), 16,8% (G&R+/G+) und 18,2% (F1) deutlich besser. Wenn sowohl die ICD-10-Codes als auch deren Lateralität berücksichtigt wurden, verschlechterten sich die Leistungskennzahlen jedoch erheblich.
In der Few-Shot-Einstellung zeigte GPT-4V eine deutlich verbesserte Leistung auf beiden Datensätzen. Die G&R+/G+- und F1-Werte stiegen signifikant an, während der Anstieg der G&R+/R+-Werte weniger ausgeprägt war.
Insgesamt zeigt die Studie, dass GPT-4V zwar Potenzial beim Verständnis von Realweltbildern hat, aber bei der Interpretation von Thorax-Röntgenaufnahmen noch Einschränkungen aufweist.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問