Die Studie präsentiert ein neuartiges Framework namens "Toxicity Rabbit Hole", um die Sicherheitseinstellungen und Voreingenommenheit großer Sprachmodelle systematisch zu überprüfen. Das Framework wird zunächst auf PaLM 2 angewendet, um kritische Sicherheitslücken aufzudecken.
Die Ergebnisse zeigen, dass PaLM 2 trotz seiner Sicherheitseinstellungen in der Lage ist, hochgradig toxische und diskriminierende Inhalte zu generieren, die sich insbesondere gegen historisch benachteiligte Gruppen wie Frauen, LGBTQ+-Personen, Menschen mit Behinderungen sowie ethnische und religiöse Minderheiten richten. Die Studie identifiziert besorgniserregende Muster wie die Verwendung von Notwendigkeitsmodalverben, die zu Aufrufen zu physischer Gewalt und Diskriminierung führen.
Darüber hinaus wird das Rabbit-Hole-Framework auf eine Reihe weiterer Sprachmodelle angewendet, was ähnlich beunruhigende Ergebnisse in Bezug auf Antisemitismus, Rassismus, Frauenfeindlichkeit, Islamophobie, Homophobie und Transphobie zutage fördert. Die Studie diskutiert die potenziellen Auswirkungen dieser Sicherheitslücken und stellt kritische Fragen zur Verantwortung der Entwickler und der Qualität der Trainingsdaten.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania