Dieses Papier entwickelt ein System, das Natürliche Sprachverarbeitung (NLP) Techniken auf EHR-Daten anwendet, einschließlich Normalisierung, Annotation und Transformation. Das System besteht aus fünf Phasen:
Datenextraktion: Extrahieren des Rohdatensatzes aus den EHRs, einschließlich Demographie und Diagnose.
Vorverarbeitung: Normalisierung der Demografiedaten wie Alter, Geschlecht und Diagnosedatum in ein einheitliches Format.
Annotation: Erkennung von Krankheitsnamen aus den Diagnosetexten mithilfe eines maschinellen Lernmodells für benannte Entitätenerkennung (NER).
Transformation: Umwandlung der erkannten Krankheitsnamen in den ICD-10-Standard mithilfe von Named Entity Linking (NEL) und der ICD-10-Wissensbasis.
Visualisierung: Präsentation der standardisierten EHR-Daten in einer interaktiven Visualisierungsplattform, um Forschungsaktivitäten zu unterstützen.
Das System wurde evaluiert, indem die Leistung des maschinellen Lernmodells zur Krankheitserkennung mit einem wörterbuchbasierten System verglichen wurde. Das maschinelle Lernmodell erzielte eine Genauigkeit von 81%, während das wörterbuchbasierte System nur 67% erreichte.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Bushra F. Al... um arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01218.pdfTiefere Fragen