Die Studie untersucht den Einsatz von Großen Sprachmodellen (Large Language Models, LLMs) zur automatisierten Patientenrekrutierung für klinische Studien. Dabei werden folgende Erkenntnisse gewonnen:
Zero-Shot-Ansatz: Ohne jegliches Training erreicht das LLM GPT-4 einen Spitzenplatz auf der n2c2-Benchmark für Patientenauswahl, mit einem Makro-F1-Wert von 0,81 und einem Mikro-F1-Wert von 0,93. Dies stellt eine deutliche Verbesserung gegenüber dem bisherigen Stand der Technik dar.
Effizienz: Durch geschicktes Prompting kann die Effizienz des Systems in Bezug auf Kosten, Rechenzeit und Tokenverbrauch um eine Größenordnung gesteigert werden, ohne dabei wesentliche Leistungseinbußen hinnehmen zu müssen.
Interpretierbarkeit: Die von GPT-4 generierten Begründungen für seine Entscheidungen werden von Ärzten in 97% der korrekten und 75% der falschen Fälle als sinnvoll eingestuft. Dies ermöglicht eine Mensch-Maschine-Zusammenarbeit.
Die Ergebnisse zeigen, dass LLMs das Potenzial haben, den Flaschenhals der Patientenrekrutierung in klinischen Studien deutlich zu reduzieren, indem sie eine schnellere, kostengünstigere und interpretierbare Lösung bieten.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문