Die Studie untersucht Inkonsistenzen in den Annotationen der Todesuntersuchungsnotizen des National Violent Death Reporting System (NVDRS) und entwickelt einen empirischen Ansatz auf Basis von Methoden des Natürlichen Sprachverarbeitens, um diese Inkonsistenzen zu erkennen und zu beheben.
Zunächst wird gezeigt, dass die Leistung von Klassifikationsmodellen, die auf Daten aus verschiedenen Bundesstaaten trainiert werden, stark variiert. Dies deutet auf Inkonsistenzen in den Annotationen zwischen den Bundesstaaten hin. Anschließend wird ein Verfahren vorgestellt, um problematische Datenpunkte zu identifizieren, die zu diesen Inkonsistenzen beitragen. Durch das Entfernen dieser problematischen Instanzen aus dem Trainingsdatensatz kann die Modellleistung auf den Testdatensätzen anderer Bundesstaaten im Durchschnitt um 3,85% verbessert werden.
Darüber hinaus werden die identifizierten problematischen Instanzen manuell korrigiert. Die Ergebnisse zeigen, dass die Verwendung der korrigierten Daten die Modellleistung sowohl auf den Testdatensätzen anderer Bundesstaaten als auch auf dem Testdatensatz des Zielstaates deutlich verbessert. Dies unterstreicht die Bedeutung genauer und konsistenter Annotationen für die Verbesserung der Klassifikationsleistung über verschiedene Bundesstaaten hinweg.
Abschließend wird eine Analyse des Risikos von Verzerrungen durchgeführt, um zu untersuchen, ob sich die Beziehung zwischen suizidrelevanten Umständen und demografischen Variablen (Rasse, Alter, Geschlecht) nach dem Entfernen der identifizierten Fehler ändert. Die Ergebnisse zeigen, dass unser vorgeschlagenes Verfahren zur Identifizierung von Annotationsfehlern notwendig ist, um mögliche Verzerrungen in den Daten aufzudecken.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Song Wang,Yi... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19432.pdfDeeper Inquiries