Dieser Artikel untersucht den Einfluss von Korpuserstellungsentscheidungen auf große mehrsprachige geografische Webkorpora. Ausgehend von einem 427-Milliarden-Wörter-Korpus, der aus dem Common Crawl abgeleitet wurde, werden drei Methoden verwendet, um die Qualität von Teilkorpora, die bestimmte Sprache-Land-Paare wie Neuseeland-Englisch repräsentieren, zu verbessern:
Der Einfluss jedes dieser Schritte wird dann auf Sprach- und Länderebene bewertet, indem Korpusähnlichkeitsmaße verwendet werden, um jedes resultierende Korpus mit Baseline-Datensätzen zu vergleichen. Das Ziel ist es, die Auswirkungen von Datenbereinigungsentscheidungen auf nachgelagerte Korpora mit einem besonderen Fokus auf unterrepräsentierte Sprachen und Bevölkerungsgruppen zu verstehen.
Die Bewertung zeigt, dass die Gültigkeit der Teilkorpora mit jeder Reinigungsstufe verbessert wird, diese Verbesserung aber ungleichmäßig über Sprachen und Bevölkerungen verteilt ist. Dieses Ergebnis zeigt, wie Standardtechniken zur Korpuserstellung versehentlich unterrepräsentierte Bevölkerungen ausschließen können.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jonathan Dun... a las arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08198.pdfConsultas más profundas