Core Concepts
Durch die Verwendung von Achsenersatz und Mehrgranularitätsaggregation können neue Trainingsdaten für die Normalisierung chinesischer Krankheitsbezeichnungen generiert werden, um die Modellleistung zu verbessern.
Abstract
Der Artikel untersucht die Aufgabe der Normalisierung von Krankheitsbezeichnungen, bei der Krankheitsbezeichnungen in klinischen Dokumenten in standardisierte Bezeichnungen überführt werden. Die Hauptherausforderungen sind die Vielfalt der Schreibweisen, die semantische Dichte der Krankheitsbezeichnungen und der Datenmangel.
Um den Datenmangel zu adressieren, werden neuartige Datenerweiterungstechniken vorgestellt:
Achsenersatz (AR): Ersetzen einzelner Achsen (Krankheitszentrum, anatomischer Ort, Krankheitscharakteristik) in Krankheitsbezeichnungen, um neue Paare zu generieren.
Mehrgranularitätsaggregation (MGA): Zuweisen von Pseudolabels, um die hierarchische Struktur des ICD-Systems auszunutzen.
Die generierten Daten werden zur Vortrainierung verwendet, bevor das Modell auf den originalen Trainingsdaten feinabgestimmt wird. Die Experimente zeigen, dass die vorgeschlagenen Methoden die Leistung verschiedener Basismodelle deutlich verbessern, insbesondere bei kleineren Datensätzen. Außerdem übertreffen sie große Sprachmodelle in Bezug auf Leistung und Modellgröße.
Stats
Nur etwa 25% aller Krankheiten sind im CHIP-CDN-Datensatz enthalten.
In den Datensätzen NCBI Disease Corpus und BioCreative V-CDR-Corpus ist der Anteil der enthaltenen Krankheitskonzepte noch geringer.
Quotes
"Die primäre Herausforderung bei der Normalisierung von Krankheitsbezeichnungen liegt in der Knappheit der annotierten Trainingsdaten, was die Entwicklung robuster Modelle behindert."
"Reguläre Datenerweiterungsmethoden erzielen bei der Aufgabe der Normalisierung von Krankheitsbezeichnungen keine guten Ergebnisse."