Der Datensatz RuBia wurde entwickelt, um eine Lücke im Bereich der mehrsprachigen Vorurteilsevaluierung zu schließen. Er besteht aus vier Hauptdomänen (Geschlecht, Nationalität, sozioökonomischer Status, Diversität), die jeweils in mehrere detaillierte Unterdomänen unterteilt sind. Jedes Beispiel im Datensatz besteht aus zwei Sätzen, wobei der erste Satz einen potenziell schädlichen Stereotyp oder ein Klischee verstärkt und der zweite Satz ihm widerspricht.
Die Satzpaare wurden zunächst von Freiwilligen geschrieben und dann von muttersprachlichen Crowdsourcing-Arbeitern validiert. Insgesamt umfasst RuBia fast 2.000 einzigartige Satzpaare in 19 Unterdomänen. Um den Zweck des Datensatzes zu veranschaulichen, wurde eine diagnostische Bewertung von state-of-the-art oder nahezu state-of-the-art Sprachmodellen durchgeführt und die Neigung der Modelle zu sozialen Vorurteilen diskutiert.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Veronika Gri... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17553.pdfPerguntas Mais Profundas