toplogo
Sign In

Automatische Erkennung von Entitäten in historischen Sterbeurkunden aus Curaçao


Core Concepts
Die Kombination von automatischer Handschrifterkennung und Informationsextraktion kann den Prozess der Datenerfassung aus historischen Sterbeurkunden beschleunigen, erfordert aber weitere Verbesserungen, um die gewünschte Qualität zu erreichen.
Abstract
Das Projekt REE-HDSC untersucht, wie die Qualität von automatisch extrahierten Entitäten aus Texten, die mit Handschrifterkennung (HTR) erstellt wurden, verbessert werden kann. Es wird ein sechsstufiger Verarbeitungsprozess präsentiert, der an Sterbeurkunden aus dem 19. und 20. Jahrhundert von der Karibikinsel Curaçao getestet wurde. Die Analyse zeigt, dass das Verfahren Daten mit hoher Genauigkeit extrahiert, insbesondere bei Sterbedaten. Die Genauigkeit der Personennamenerkennung ist jedoch gering. Durch das Nachtrainieren von HTR-Modellen mit Namensbeispielen, Nachbearbeitung und Identifizierung sowie Entfernung inkorrekt erkannter Namen kann die Namenserkennungsgenauigkeit jedoch verbessert werden. Die derzeitige Qualität der Handschrifterkennung entspricht noch nicht den Anforderungen des HDSC-Projekts. Dennoch könnte die HTR-Technologie den Annotationsprozess durch freiwillige Helfer beschleunigen, wenn die automatisch erkannten Entitäten und Daten als Unterstützung bereitgestellt werden.
Stats
76% der Sterbedaten wurden gefunden, davon waren 37% exakt korrekt. Nach automatischer Korrektur offensichtlich falscher Sterbejahre stieg die Genauigkeit auf 58%. 95% der Personennamen wurden gefunden, davon waren 17% komplett korrekt. Bei Zulassung von Namensunterschieden bis zu einer Levenshtein-Distanz von 3 stieg die Genauigkeit auf 55%.
Quotes
"Die Kombination von HTR und Informationsextraktion könnte den Annotationsprozess durch freiwillige Helfer beschleunigen, wenn die automatisch erkannten Entitäten und Daten als Unterstützung bereitgestellt werden." "Die derzeitige Qualität der Handschrifterkennung entspricht noch nicht den Anforderungen des HDSC-Projekts."

Key Insights Distilled From

by Erik Tjong K... at arxiv.org 04-08-2024

https://arxiv.org/pdf/2401.02972.pdf
REE-HDSC

Deeper Inquiries

Wie könnte die Handschrifterkennung weiter verbessert werden, um eine höhere Genauigkeit bei der Namenerkennung zu erreichen?

Um die Genauigkeit der Namenerkennung bei der Handschrifterkennung zu verbessern, könnten mehr Trainingsdaten verwendet werden. Im vorliegenden Fall wurden zusätzliche Trainingsdaten extrahiert, um die HTR-Modelle mit mehr Namen zu trainieren. Dies führte zu einer leichten Verbesserung der Namenerkennungsgenauigkeit. Darüber hinaus könnte die Post-Processing-Phase nach der Handschrifterkennung optimiert werden, um unbekannte Wörter durch die nächstgelegenen bekannten Wörter zu ersetzen. Dieser Ansatz führte jedoch nicht zu einer signifikanten Verbesserung der Namenerkennungsgenauigkeit. Eine weitere Möglichkeit zur Verbesserung der Namenerkennungsgenauigkeit könnte darin bestehen, ein Modell zu entwickeln, das automatisch erkennt, welche Wörter im HTR-Ausgabeprozess korrekt und welche falsch sind. Dieser Ansatz könnte dazu beitragen, die Anzahl der manuell zu korrigierenden Namen zu reduzieren und die Effizienz des Prozesses zu steigern.

Welche Herausforderungen ergeben sich, wenn die automatisch erkannten Daten von freiwilligen Helfern korrigiert und ergänzt werden sollen?

Eine der Herausforderungen besteht darin, dass die automatisch erkannten Daten möglicherweise Fehler enthalten, die von den freiwilligen Helfern korrigiert werden müssen. Dies erfordert Zeit und Aufmerksamkeit, da die Helfer die korrekten Informationen aus den historischen Dokumenten extrahieren müssen. Darüber hinaus könnten die freiwilligen Helfer unterschiedliche Interpretationen haben, was zu Inkonsistenzen in den Korrekturen führen könnte. Es ist wichtig, klare Richtlinien und Schulungen für die freiwilligen Helfer bereitzustellen, um sicherzustellen, dass die Korrekturen konsistent und genau sind. Eine weitere Herausforderung besteht darin, dass die freiwilligen Helfer möglicherweise nicht mit der Verwendung der HTR-Technologie vertraut sind und Schulungen benötigen, um effektiv mit den automatisch erkannten Daten umzugehen.

Welche zusätzlichen Informationen aus den historischen Dokumenten könnten neben Personennamen und Sterbedaten noch von Interesse sein und wie könnten diese extrahiert werden?

Neben Personennamen und Sterbedaten könnten aus den historischen Dokumenten weitere Informationen wie Berufe, Beziehungen zu anderen Personen, Geburtsdaten, Adressen und Zeugenaussagen von Interesse sein. Diese Informationen könnten durch die Anwendung von Texterkennungstechnologien und maschinellem Lernen extrahiert werden. Zum Beispiel könnten spezielle Modelle entwickelt werden, um Berufe und Beziehungen zu identifizieren, während Regeln und Mustererkennungsalgorithmen verwendet werden könnten, um Geburtsdaten und Adressen zu extrahieren. Durch die Kombination von verschiedenen Techniken und Tools könnten zusätzliche Informationen aus den historischen Dokumenten effizient und genau extrahiert werden.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star