Die Studie präsentiert den SCTS-Algorithmus, um die Erkennung von Wasserzeichen in Large Language Models (LLMs) zu umgehen, ohne externe LLMs zu verwenden.
Der Kern der Idee ist, dass SCTS das LLM gezielt auffordert, scheinbar zufällige Zeichenketten zu generieren, um Farbinformationen über die generierten Tokens zu extrahieren. Basierend darauf ersetzt SCTS dann gezielt grüne Tokens durch rote, um die Wasserzeichen zu entfernen.
Die Analyse zeigt, dass SCTS theoretisch in der Lage ist, den durchschnittlichen Grünanteil der Tokens unter den Schwellwert für die Wasserzeichenerkennung zu senken. Empirisch erweist sich SCTS als deutlich effektiver als bisherige Methoden, die Wasserzeichen unter Einhaltung realistischer Beschränkungen für die Textänderungen zu umgehen.
SCTS ist besonders effektiv für LLMs, die sorgfältig auf Instruktionen ausgerichtet und trainiert wurden, da diese Modelle die Aufforderungen zur Farbextraktion besser befolgen. Die Studie diskutiert auch Möglichkeiten zur Verbesserung von SCTS, z.B. durch effizienteres Caching von Farbinformationen.
To Another Language
from source content
arxiv.org
Djupare frågor