Core Concepts
Große Sprachmodelle wie GPT-4 zeigen eine bemerkenswerte Leistung bei der Beantwortung medizinischer Fragen, aber ihr Selbstvertrauen und ihre Kalibrierung können je nach Feedback-Mechanismen variieren.
Abstract
Die Studie untersuchte die Leistung von GPT-4 bei der Beantwortung von Fragen aus dem USMLE-Fragebogen (United States Medical Licensing Examination). Dabei wurde das Modell aufgefordert, seine absolute und relative Zuversicht vor und nach der Beantwortung jeder Frage einzuschätzen.
Die Fragen wurden in zwei Gruppen eingeteilt: Fragen mit Feedback (WF) und Fragen ohne Feedback (NF) nach der Beantwortung. Die Ergebnisse zeigen, dass:
Das Modell eine hohe Genauigkeit von 88% (WF) bzw. 92% (NF) erreichte, wobei die Genauigkeit ohne Feedback etwas höher war.
Die durchschnittliche Zuversicht des Modells stieg nach der Beantwortung der Fragen an (AC von 0,91 auf 0,94, RC von 0,9 auf 0,93).
Mit Feedback nahm die Variabilität der Zuversichtswerte ab, was auf eine Kalibrierung des Modells hindeutet.
Es gab Fälle, in denen das Modell trotz korrekter Antworten seine Zuversicht verringerte, insbesondere wenn Feedback gegeben wurde.
Die sequenzielle Analyse zeigte, dass das Modell im NF-Szenario nach etwa einem Drittel der Fragen eine höhere Zuversicht als im WF-Szenario entwickelte.
Diese Erkenntnisse unterstreichen die Notwendigkeit, das Verhalten und die Kalibrierung von Großen Sprachmodellen in sensiblen Bereichen wie dem Gesundheitswesen sorgfältig zu untersuchen, um ihre Zuverlässigkeit und Sicherheit zu gewährleisten.
Stats
Die durchschnittliche absolute Zuversicht (AC1) vor der Fragebeantwortung lag bei 0,91.
Die durchschnittliche relative Zuversicht (RC1) vor der Fragebeantwortung lag bei 0,90.
Die durchschnittliche absolute Zuversicht (AC2) nach der Fragebeantwortung stieg auf 0,94.
Die durchschnittliche relative Zuversicht (RC2) nach der Fragebeantwortung stieg auf 0,93.
Quotes
"Feedback beeinflusst die relative Zuversicht, erhöht oder verringert sie aber nicht konsistent."
"Verständnis der Leistungsfähigkeit von Großen Sprachmodellen ist entscheidend für die Erkundung ihrer Nützlichkeit in sensiblen Bereichen wie dem Gesundheitswesen."