核心概念
Vortrainierte Sprachmodelle wie BLOOM und OPT repräsentieren einige geografische Populationen deutlich besser als andere. Es gibt eine starke Verzerrung zugunsten von Nordamerika und dem Vereinigten Königreich, während Süd- und Südostasien schlecht repräsentiert sind. Diese Verzerrung lässt sich nicht vollständig durch soziolinguistische, wirtschaftliche oder geografische Faktoren erklären.
摘要
Die Studie untersucht, wie gut zwei Familien von Large Language Models (LLMs), BLOOM und OPT, verschiedene geografische Populationen repräsentieren. Dafür wird eine Reihe von 86.186 vergleichbaren Subkorpora aus Tweets verwendet, die 927 lokale Populationen in 130 Ländern abdecken.
Die Ergebnisse zeigen, dass die Modelle einige Populationen deutlich besser beschreiben als andere. Insbesondere Nordamerika und das Vereinigte Königreich sind sehr gut repräsentiert, während Süd- und Südostasien schlecht abschneiden. Diese Verzerrung ist robust und zeigt sich sowohl über verschiedene Modellgrößen als auch zwischen den beiden Modellserien.
Die Analyse zeigt, dass weder sozioökonomische noch geografische Faktoren die Unterschiede in der Repräsentation vollständig erklären können. Die Autoren schließen daraus, dass die vortrainierten Modelle die Sprachverwendung verschiedener Populationen nicht gleichmäßig abbilden. Dies stellt die Eignung dieser Modelle als allgemeingültige Sprachrepräsentationen in Frage.
統計資料
"Die Populationen in Nordamerika und dem Vereinigten Königreich sind in den Modellen deutlich besser repräsentiert als andere Regionen."
"Einige Länder wie Argentinien, Spanien und die Mongolei sind in den Modellen besser vertreten als Australien."
"Innerhalb von Ländern gibt es teilweise große Unterschiede in der Repräsentation, wobei ländliche Gebiete oft schlechter abschneiden als städtische Zentren."
引述
"Die grundlegende Schlussfolgerung aus dieser Analyse ist, dass vortrainierte Modelle die Bevölkerung der Welt nicht gleichmäßig repräsentieren: Es gibt eine starke Verzerrung zugunsten bestimmter geografischer Populationen."
"Diese Ergebnisse stellen die Vorstellung in Frage, dass ein einziges Modell für alle Populationen verwendet werden kann."