Die Studie untersucht Inkonsistenzen in den Annotationen der Todesuntersuchungsnotizen des National Violent Death Reporting System (NVDRS) und entwickelt einen empirischen Ansatz auf Basis von Methoden des Natürlichen Sprachverarbeitens, um diese Inkonsistenzen zu erkennen und zu beheben.
Zunächst wird gezeigt, dass die Leistung von Klassifikationsmodellen, die auf Daten aus verschiedenen Bundesstaaten trainiert werden, stark variiert. Dies deutet auf Inkonsistenzen in den Annotationen zwischen den Bundesstaaten hin. Anschließend wird ein Verfahren vorgestellt, um problematische Datenpunkte zu identifizieren, die zu diesen Inkonsistenzen beitragen. Durch das Entfernen dieser problematischen Instanzen aus dem Trainingsdatensatz kann die Modellleistung auf den Testdatensätzen anderer Bundesstaaten im Durchschnitt um 3,85% verbessert werden.
Darüber hinaus werden die identifizierten problematischen Instanzen manuell korrigiert. Die Ergebnisse zeigen, dass die Verwendung der korrigierten Daten die Modellleistung sowohl auf den Testdatensätzen anderer Bundesstaaten als auch auf dem Testdatensatz des Zielstaates deutlich verbessert. Dies unterstreicht die Bedeutung genauer und konsistenter Annotationen für die Verbesserung der Klassifikationsleistung über verschiedene Bundesstaaten hinweg.
Abschließend wird eine Analyse des Risikos von Verzerrungen durchgeführt, um zu untersuchen, ob sich die Beziehung zwischen suizidrelevanten Umständen und demografischen Variablen (Rasse, Alter, Geschlecht) nach dem Entfernen der identifizierten Fehler ändert. Die Ergebnisse zeigen, dass unser vorgeschlagenes Verfahren zur Identifizierung von Annotationsfehlern notwendig ist, um mögliche Verzerrungen in den Daten aufzudecken.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Song Wang,Yi... pada arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19432.pdfPertanyaan yang Lebih Dalam