Core Concepts
Wasserzeichen-Diebstahl stellt eine fundamentale Bedrohung für Wasserzeichen in großen Sprachmodellen dar.
Abstract
Wasserzeichen in großen Sprachmodellen dienen der Erkennung von KI-generierten Inhalten.
Wasserzeichen-Diebstahl ermöglicht praktische Angriffe auf bestehende Wasserzeichen.
Spoofing-Angriffe können hochwertige Texte erzeugen, die fälschlicherweise als wasserzeichenbehaftet erkannt werden.
Scrubbing-Angriffe können Wasserzeichen aus Texten entfernen.
Die Studie zeigt, dass aktuelle Wasserzeichen-Schemata anfälliger sind als angenommen.
Es besteht Bedarf an robusteren Wasserzeichen-Schemata.
Stats
Wir zeigen, dass ein Angreifer für unter 50 $ erfolgreich Spoofing- und Scrubbing-Angriffe durchführen kann.
Der durchschnittliche Erfolg beträgt über 80%.
Quotes
"Unsere Ergebnisse fordern gängige Überzeugungen über Wasserzeichen in Sprachmodellen heraus."