Wir stellen eine neue Aufgabe namens WAV2GLOSS vor, bei der aus Sprachaufnahmen automatisch Transkriptionen, morphologische Segmentierungen, Glossen und Übersetzungen in eine Mehrheitssprache extrahiert werden sollen. Außerdem präsentieren wir den FIELDWORK-Datensatz, die erste Sammlung von Sprachaufnahmen mit diesen Annotationen für 37 Sprachen.
Vortrainierte Sprachmodelle wie BLOOM und OPT repräsentieren einige geografische Populationen deutlich besser als andere. Es gibt eine starke Verzerrung zugunsten von Nordamerika und dem Vereinigten Königreich, während Süd- und Südostasien schlecht repräsentiert sind. Diese Verzerrung lässt sich nicht vollständig durch soziolinguistische, wirtschaftliche oder geografische Faktoren erklären.