Dieser Artikel untersucht den Einfluss von Korpuserstellungsentscheidungen auf große mehrsprachige geografische Webkorpora. Ausgehend von einem 427-Milliarden-Wörter-Korpus, der aus dem Common Crawl abgeleitet wurde, werden drei Methoden verwendet, um die Qualität von Teilkorpora, die bestimmte Sprache-Land-Paare wie Neuseeland-Englisch repräsentieren, zu verbessern:
Der Einfluss jedes dieser Schritte wird dann auf Sprach- und Länderebene bewertet, indem Korpusähnlichkeitsmaße verwendet werden, um jedes resultierende Korpus mit Baseline-Datensätzen zu vergleichen. Das Ziel ist es, die Auswirkungen von Datenbereinigungsentscheidungen auf nachgelagerte Korpora mit einem besonderen Fokus auf unterrepräsentierte Sprachen und Bevölkerungsgruppen zu verstehen.
Die Bewertung zeigt, dass die Gültigkeit der Teilkorpora mit jeder Reinigungsstufe verbessert wird, diese Verbesserung aber ungleichmäßig über Sprachen und Bevölkerungen verteilt ist. Dieses Ergebnis zeigt, wie Standardtechniken zur Korpuserstellung versehentlich unterrepräsentierte Bevölkerungen ausschließen können.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jonathan Dun... alle arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08198.pdfDomande più approfondite