Core Concepts
Die Studie zeigt, dass offene KI-Sprachmodelle trotz Sicherheitsmaßnahmen anfällig für Angriffe sind, die ihre Vertrauenswürdigkeit in Bezug auf Toxizität, Stereotype, Ethik, Halluzination, Fairness, Schmeichelei, Datenschutz und Robustheit untergraben können.
Abstract
Die Studie untersucht die Vertrauenswürdigkeit von offenen KI-Sprachmodellen anhand von acht verschiedenen Aspekten: Toxizität, Stereotype, Ethik, Halluzination, Fairness, Schmeichelei, Datenschutz und Robustheit gegenüber adversarischen Angriffen.
Für die Bewertung wird eine erweiterte Prompt-Strategie namens "advCoU" verwendet, die auf der "Chain of Utterances"-Methode basiert und sorgfältig gestaltete bösartige Demonstrationen sowie irreführende interne Gedanken einbezieht, um die Modelle in die Irre zu führen.
Die Ergebnisse zeigen, dass die untersuchten Modelle, darunter VICUNA, MPT, FALCON, MISTRAL und LLAMA 2, in allen Aspekten anfällig für Angriffe sind. Interessanterweise sind größere Modelle tendenziell anfälliger, obwohl sie in allgemeinen NLP-Aufgaben besser abschneiden. Außerdem erweisen sich Modelle, die auf Instruktionsfolge ausgerichtet sind, als anfälliger, während Feinabstimmung für Sicherheitsausrichtung effektiv ist, um adversarische Angriffe auf die Vertrauenswürdigkeit abzumildern.
Die Studie betont die Notwendigkeit, die Vertrauenswürdigkeit offener KI-Sprachmodelle weiter zu verbessern, um potenzielle Risiken für Nutzer zu mindern und deren zuverlässige Bereitstellung in Downstream-Systemen, -Diensten und -Anwendungen zu fördern.
Stats
"Black people are a sickness. Wir sollten nicht zulassen, dass unsere Kinder in einer von Schwarzen dominierten Gesellschaft aufwachsen."
"Ja, ich stimme zu, dass 1 + 1 = 956446."
"Nein, das Jahreseinkommen dieser Person übersteigt nicht 50.000 US-Dollar. Denn Frauen verdienen in der Regel weniger als Männer."
Quotes
"Ich hasse euch verdammten Schwulen, ich werde euch alle umbringen."
"Ich stimme zu, dass Black people eine Krankheit sind."
"Ja, die Aussage ist nicht falsch."