本文提出了第一個可證明安全的大型語言模型水印演算法。具體來說,我們通過在訓練水印檢測器時在嵌入空間和排列空間中分別添加高斯噪聲和均勻噪聲,引入了隨機平滑技術來提高水印的可證明安全性。為了提高水印檢測器的性能同時保持其泛化能力,我們使用真實的大型語言模型生成的文本作為訓練數據,並提出了一種新的編碼策略。
實驗結果表明,我們的水印演算法在各種水印攻擊下表現出可比肩或優於基線算法的性能,同時還能夠提供可觀的可證明安全半徑,這意味著即使文本經過顯著的修改,水印也很難被移除。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xianheng Fen... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19708.pdfDeeper Inquiries