Große Unterschiede in der Repräsentation geografischer Populationen durch vortrainierte Sprachmodelle
Vortrainierte Sprachmodelle wie BLOOM und OPT repräsentieren einige geografische Populationen deutlich besser als andere. Es gibt eine starke Verzerrung zugunsten von Nordamerika und dem Vereinigten Königreich, während Süd- und Südostasien schlecht repräsentiert sind. Diese Verzerrung lässt sich nicht vollständig durch soziolinguistische, wirtschaftliche oder geografische Faktoren erklären.