Dieser Artikel untersucht den Einfluss von Korpuserstellungsentscheidungen auf große mehrsprachige geografische Webkorpora. Ausgehend von einem 427-Milliarden-Wörter-Korpus, der aus dem Common Crawl abgeleitet wurde, werden drei Methoden verwendet, um die Qualität von Teilkorpora, die bestimmte Sprache-Land-Paare wie Neuseeland-Englisch repräsentieren, zu verbessern:
Der Einfluss jedes dieser Schritte wird dann auf Sprach- und Länderebene bewertet, indem Korpusähnlichkeitsmaße verwendet werden, um jedes resultierende Korpus mit Baseline-Datensätzen zu vergleichen. Das Ziel ist es, die Auswirkungen von Datenbereinigungsentscheidungen auf nachgelagerte Korpora mit einem besonderen Fokus auf unterrepräsentierte Sprachen und Bevölkerungsgruppen zu verstehen.
Die Bewertung zeigt, dass die Gültigkeit der Teilkorpora mit jeder Reinigungsstufe verbessert wird, diese Verbesserung aber ungleichmäßig über Sprachen und Bevölkerungen verteilt ist. Dieses Ergebnis zeigt, wie Standardtechniken zur Korpuserstellung versehentlich unterrepräsentierte Bevölkerungen ausschließen können.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문