Die Studie untersucht den Einsatz von Großen Sprachmodellen (Large Language Models, LLMs) zur automatisierten Patientenrekrutierung für klinische Studien. Dabei werden folgende Erkenntnisse gewonnen:
Zero-Shot-Ansatz: Ohne jegliches Training erreicht das LLM GPT-4 einen Spitzenplatz auf der n2c2-Benchmark für Patientenauswahl, mit einem Makro-F1-Wert von 0,81 und einem Mikro-F1-Wert von 0,93. Dies stellt eine deutliche Verbesserung gegenüber dem bisherigen Stand der Technik dar.
Effizienz: Durch geschicktes Prompting kann die Effizienz des Systems in Bezug auf Kosten, Rechenzeit und Tokenverbrauch um eine Größenordnung gesteigert werden, ohne dabei wesentliche Leistungseinbußen hinnehmen zu müssen.
Interpretierbarkeit: Die von GPT-4 generierten Begründungen für seine Entscheidungen werden von Ärzten in 97% der korrekten und 75% der falschen Fälle als sinnvoll eingestuft. Dies ermöglicht eine Mensch-Maschine-Zusammenarbeit.
Die Ergebnisse zeigen, dass LLMs das Potenzial haben, den Flaschenhals der Patientenrekrutierung in klinischen Studien deutlich zu reduzieren, indem sie eine schnellere, kostengünstigere und interpretierbare Lösung bieten.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania