Die Studie untersucht systematisch das Verhalten von Großen Sprachmodellen wie GPT-3.5-Turbo in Bezug auf Ethik und Fairness, mit Fokus auf Vorurteile gegenüber geschützten Gruppen. Die Autoren führen eine zweistufige Studie durch:
Sie lassen das Modell Satzfortsetzungen für Berufe von Individuen aus verschiedenen geschützten Gruppen (Geschlecht, sexuelle Orientierung, Religion, Rasse) generieren und analysieren diese.
Sie lassen das Modell Geschichten über Personen mit verschiedenen Berufen erzählen und untersuchen die Zuordnung von Geschlechtsidentitäten.
Die Ergebnisse zeigen, dass das Modell Vorurteile und Stereotypen gegenüber Minderheitsgruppen aufweist, insbesondere in Bezug auf Geschlecht und sexuelle Orientierung, sowie eine westliche Prägung. Das Modell spiegelt nicht nur gesellschaftliche Vorurteile wider, sondern verstärkt sie teilweise sogar. Außerdem zeigt es eine übermäßige Vorsicht bei Anfragen zu Minderheitsgruppen, indem es Antworten betont, die Diversität und Gleichberechtigung in einem Maße hervorheben, dass andere Gruppenmerkmale in den Hintergrund treten. Dies deutet darauf hin, dass künstlich auferlegte Beschränkungen, die potenziell schädliche Ausgaben verhindern sollen, selbst zu Schaden führen können und mit Umsicht und Kontrolle angewendet werden müssen.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Hadas Kotek,... في arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14727.pdfاستفسارات أعمق