Die Studie untersucht die Fähigkeiten öffentlich verfügbarer Großsprachmodelle (LLMs), adversarische Textbeispiele zu erstellen, um Hassrede-Erkennungssysteme zu umgehen. Die Ergebnisse zeigen, dass alle untersuchten Modelle - Mistral-7B, Mixtral-8x7B und OpenChat 3.5 - in der Lage sind, erfolgreich Textmanipulationen vorzunehmen, um die Vorhersagen des Hassrede-Klassifikators zu beeinflussen.
Die Modelle demonstrieren verschiedene Strategien, um die Textbeispiele zu verändern, wie das Ersetzen, Hinzufügen oder Entfernen einzelner Zeichen. Dabei gelingt es ihnen, die Bedeutung des Textes weitgehend beizubehalten, während sie die Vorhersagewahrscheinlichkeit des Klassifikators deutlich senken.
Mistral-7B zeigt dabei den besten Kompromiss zwischen Erfolgsquote und Minimierung der Textveränderungen. Mixtral-8x7B und OpenChat 3.5 erzielen zwar höhere Erfolgsquoten, führen aber teilweise zu stärkeren Textmanipulationen. Die Studie verdeutlicht, dass öffentlich verfügbare LLMs über inhärente Fähigkeiten verfügen, Sicherheitsmechanismen wie Hassrede-Erkennung zu umgehen, was erhebliche Auswirkungen auf (semi-)autonome Systeme haben kann.
翻譯成其他語言
從原文內容
arxiv.org
深入探究