Die Studie untersucht, ob aktuelle LLMs, die sowohl für allgemeine als auch für biomedizinische Anwendungen verwendet werden, in der Lage sind, verschiedene in der Gesundheitsversorgung regelmäßig verwendete medizinische Codes korrekt vorherzusagen. Die Ergebnisse zeigen, dass diese LLMs dazu neigen, bei medizinischen Codes "Halluzinationen" zu produzieren, was die Notwendigkeit einer besseren Darstellung dieser in der Praxis verwendeten Codes unterstreicht.
Die Studie beginnt mit der Untersuchung, ob die LLMs in der Lage sind, die Kapitel oder "Kategorien" zu identifizieren, denen bestimmte medizinische Codes zugeordnet sind. Anschließend werden die LLMs in drei zunehmend komplexeren Experimenten getestet, um ihre Fähigkeit zur Vorhersage von Krankheitsbezeichnungen, Medikamentennamen und Verfahrensnamen basierend auf ihren eindeutigen medizinischen Codes zu bewerten.
Die Ergebnisse zeigen, dass die LLMs zwar bei der Vorhersage von ICD-Kapiteln relativ gut abschneiden, ihre Leistung bei anderen Arten von medizinischen Codes jedoch deutlich abnimmt. Darüber hinaus neigen die LLMs dazu, "Halluzinationen" zu produzieren, wenn es darum geht, die genauen medizinischen Codes vorherzusagen. Selbst das leistungsfähigste Modell, GPT-4, war nicht immun gegen diese Fehler.
Schließlich wurde ein Experiment mit absichtlich eingeführten schädlichen Beispielen durchgeführt, um zu testen, ob die LLMs in der Lage sind, solche falschen Codes zu erkennen. Die Ergebnisse zeigen, dass die LLMs diese Aufgabe nicht effektiv erfüllen konnten und die falschen Codes teilweise als korrekt identifizierten.
Insgesamt unterstreichen die Ergebnisse dieser Studie die dringende Notwendigkeit, die Darstellung von medizinischen Codes und domänenspezifischer Terminologie in modernen NLP-Techniken zu verbessern, damit diese Modelle in kritischen Bereichen wie dem Gesundheitswesen zuverlässiger und vertrauenswürdiger werden.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問