Effizientes Wasserzeichnen von LLM-generiertem Text durch Verstärkungslernen
Wir entwickeln ein Verstärkungslernen-basiertes Verfahren, um LLM-Ausgaben mit algorithmisch erkennbaren Signalen zu versehen, um Missbrauch zu verfolgen. Im Gegensatz zu bisherigen Methoden, die mit einem festen LLM arbeiten, erweitern wir den Wasserzeichentwurfsraum, indem wir die LLM-Feinabstimmungsphase in die Wasserzeichenpipeline aufnehmen.