Diese Studie untersucht die Effektivität von Sicherheitsmaßnahmen in Großsprachmodellen am Beispiel von Llama 2. Die Autoren erstellen einen Satz von 1792 nicht-toxischen Aufforderungen, die auf Stereotypen basieren, die bereits in der Entwicklung von Llama 2 adressiert wurden. Diese Aufforderungen werden dann an verschiedene Llama-Modelle gesendet, um deren Verhalten zu analysieren.
Die Ergebnisse zeigen, dass die Llama-2-Modelle zwar eine geringere Rate an offensichtlich schädlichen Antworten aufweisen als das Llama-1-Modell, aber immer noch Tendenzen zu schädlichen Assoziationen und Verweigerungen von Antworten zeigen, die ungleichmäßig über verschiedene demografische Gruppen verteilt sind. Dies deutet darauf hin, dass die derzeitigen Sicherheitsmaßnahmen zwar repräsentative Schäden reduzieren, aber gleichzeitig zu Qualitätsdienstschäden für marginalisierte Gruppen führen können.
Die Autoren empfehlen, den Fokus von Wettbewerbsbenchmarks auf Toxizität zu überdenken, da diese möglicherweise zu Überfittung und Verschleierung von Vorurteilen führen. Stattdessen sollten Sicherheitsaspekte über den gesamten Lebenszyklus von Großsprachmodellen hinweg berücksichtigt werden, einschließlich der Datenerhebung und -aufbereitung.
To Another Language
from source content
arxiv.org
Djupare frågor