Dieses Papier entwickelt ein System, das Natürliche Sprachverarbeitung (NLP) Techniken auf EHR-Daten anwendet, einschließlich Normalisierung, Annotation und Transformation. Das System besteht aus fünf Phasen:
Datenextraktion: Extrahieren des Rohdatensatzes aus den EHRs, einschließlich Demographie und Diagnose.
Vorverarbeitung: Normalisierung der Demografiedaten wie Alter, Geschlecht und Diagnosedatum in ein einheitliches Format.
Annotation: Erkennung von Krankheitsnamen aus den Diagnosetexten mithilfe eines maschinellen Lernmodells für benannte Entitätenerkennung (NER).
Transformation: Umwandlung der erkannten Krankheitsnamen in den ICD-10-Standard mithilfe von Named Entity Linking (NEL) und der ICD-10-Wissensbasis.
Visualisierung: Präsentation der standardisierten EHR-Daten in einer interaktiven Visualisierungsplattform, um Forschungsaktivitäten zu unterstützen.
Das System wurde evaluiert, indem die Leistung des maschinellen Lernmodells zur Krankheitserkennung mit einem wörterbuchbasierten System verglichen wurde. Das maschinelle Lernmodell erzielte eine Genauigkeit von 81%, während das wörterbuchbasierte System nur 67% erreichte.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Bushra F. Al... klo arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01218.pdfSyvällisempiä Kysymyksiä