核心概念
我們提出了第一個可證明安全的大型語言模型水印演算法,通過在嵌入空間和排列空間中添加高斯噪聲和均勻噪聲,提高了水印檢測器的可證明安全性,並能夠為水印文本提供可靠保證。
摘要
本文提出了第一個可證明安全的大型語言模型水印演算法。具體來說,我們通過在訓練水印檢測器時在嵌入空間和排列空間中分別添加高斯噪聲和均勻噪聲,引入了隨機平滑技術來提高水印的可證明安全性。為了提高水印檢測器的性能同時保持其泛化能力,我們使用真實的大型語言模型生成的文本作為訓練數據,並提出了一種新的編碼策略。
實驗結果表明,我們的水印演算法在各種水印攻擊下表現出可比肩或優於基線算法的性能,同時還能夠提供可觀的可證明安全半徑,這意味著即使文本經過顯著的修改,水印也很難被移除。
统计
我們的水印演算法在不同大型語言模型(GPT-2、OPT-1.3B、LLaMA-7B)上的F1分數分別為0.991、0.989和0.993。
在DIPPER-1和DIPPER-2等強大的文本重寫攻擊下,我們的水印演算法的F1分數分別達到0.933和0.916,優於基線算法。
在刪除、置換和同義詞替換等編輯攻擊下,我們的水印演算法的F1分數與基線算法相當。
引用
"我們提出了第一個可證明安全的大型語言模型水印演算法,通過在嵌入空間和排列空間中添加高斯噪聲和均勻噪聲,提高了水印檢測器的可證明安全性,並能夠為水印文本提供可靠保證。"
"實驗結果表明,我們的水印演算法在各種水印攻擊下表現出可比肩或優於基線算法的性能,同時還能夠提供可觀的可證明安全半徑,這意味著即使文本經過顯著的修改,水印也很難被移除。"