Core Concepts
Dieser Artikel stellt einen großen automatisch erstellten deutschen Datensatz für die Extraktion biografischer Beziehungen vor. Der Datensatz umfasst über 80.000 Instanzen für neun Beziehungstypen und ist der größte deutsche Datensatz dieser Art. Zusätzlich wird ein manuell annotierter Evaluierungsdatensatz mit 2.000 Instanzen bereitgestellt.
Abstract
Der Artikel beschreibt die Erstellung eines großen deutschen Datensatzes für die Extraktion biografischer Beziehungen mithilfe von "Guided Distant Supervision" (GDS). GDS ist ein Ansatz, um automatisch Beziehungen zwischen Entitäten in Texten zu annotieren, indem externe strukturierte Datenquellen wie Wikidata und Pantheon genutzt werden.
Der Datensatz umfasst über 80.000 Instanzen für neun Beziehungstypen wie Geburtsdatum, Geburtsort, Eltern, Geschwister usw. Dies ist der größte deutsche Datensatz für biografische Beziehungsextraktion. Zusätzlich wurde ein manuell annotierter Evaluierungsdatensatz mit 2.000 Instanzen erstellt.
Die Autoren evaluieren verschiedene state-of-the-art Transformer-Modelle wie BERT und XLM-RoBERTa auf dem Datensatz. Die Ergebnisse zeigen, dass die Modelle trotz der Verwendung von automatisch annotierten Daten gute Leistungen erzielen und mit Ergebnissen für englische Datensätze vergleichbar sind. Außerdem untersuchen die Autoren den Einsatz von mehrsprachigem und kreuzsprachlichem Lernen, um die Leistung weiter zu verbessern.
Insgesamt stellt der Artikel einen wichtigen Beitrag zur Erstellung von Ressourcen für die Extraktion biografischer Informationen aus Texten dar, insbesondere für die deutsche Sprache.
Stats
"Im Alter von fast 77 Jahren starb Lorenzo Ghiberti am 1 Dezember 1455 in Florenz."
"Menger lernte bei Hans Hahn und promovierte 1924 an der Universität Wien."
Quotes
Keine relevanten Zitate gefunden.