Die Studie untersucht, wie gut zwei Familien von Large Language Models (LLMs), BLOOM und OPT, verschiedene geografische Populationen repräsentieren. Dafür wird eine Reihe von 86.186 vergleichbaren Subkorpora aus Tweets verwendet, die 927 lokale Populationen in 130 Ländern abdecken.
Die Ergebnisse zeigen, dass die Modelle einige Populationen deutlich besser beschreiben als andere. Insbesondere Nordamerika und das Vereinigte Königreich sind sehr gut repräsentiert, während Süd- und Südostasien schlecht abschneiden. Diese Verzerrung ist robust und zeigt sich sowohl über verschiedene Modellgrößen als auch zwischen den beiden Modellserien.
Die Analyse zeigt, dass weder sozioökonomische noch geografische Faktoren die Unterschiede in der Repräsentation vollständig erklären können. Die Autoren schließen daraus, dass die vortrainierten Modelle die Sprachverwendung verschiedener Populationen nicht gleichmäßig abbilden. Dies stellt die Eignung dieser Modelle als allgemeingültige Sprachrepräsentationen in Frage.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jonathan Dun... kl. arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11025.pdfDybere Forespørgsler