Erkennung von Eigennamen in bayerischen Dialektdaten
Die Erkennung von Eigennamen (Named Entity Recognition, NER) ist eine grundlegende Aufgabe, um wichtige Informationen aus Texten zu extrahieren. Allerdings gibt es nur wenige annotierte Ressourcen für Dialekte. Diese Studie stellt BarNER vor, den ersten dialektalen NER-Datensatz für Deutsch, mit 161.000 Tokens, die auf bayerischen Wikipedia-Artikeln und Tweets annotiert wurden. Der bayerische Dialekt unterscheidet sich vom Standarddeutschen in Lexik, Syntax und Entitätsinformationen. Die Studie präsentiert umfassende NER-Ergebnisse für Bayerisch und zeigt, dass der Einbezug von Wissen aus größeren deutschen NER-Datensätzen die Leistung auf bar-wiki deutlich und auf bar-tweet moderat verbessert. Umgekehrt trägt das Training auf Bayerisch leicht zum deutschen CoNLL 2006-Korpus bei. Darüber hinaus wird durch Multi-Task-Lernen zwischen NER und Dialektidentifikation der SOTA auf bar-wiki erreicht. Die Studie unterstreicht die Notwendigkeit unseres BarNER-Korpus und die Bedeutung von Vielfalt in Dialekten, Genres und Themen für die Verbesserung der Modellleistung.