Główne pojęcia
パラフレーズに対して頑健な意味的ウォーターマークアルゴリズムSEMSTAMPを提案する。
Streszczenie
本論文では、大規模言語モデル(LLM)から生成されたテキストを検出するための新しい意味的ウォーターマークアルゴリズムSEMSTAMPを提案している。従来のトークンレベルのウォーターマークアルゴリズムはパラフレーズ攻撃に弱いが、SEMSTAMPは以下の特徴を持つ:
- 文レベルの意味表現を使ってウォーターマークを埋め込むため、トークンの変更に頑健である。
- 局所敏感ハッシュ(LSH)を使って意味空間を分割し、生成文がウォーターマークされた領域に落ちるよう拒否サンプリングを行う。
- 対照学習によりパラフレーズに強いセンテンスエンコーダを学習し、さらに余裕マージンを導入することで、LSHシグネチャの一貫性を高める。
実験の結果、SEMSTAMPはさまざまなパラフレーザに対して高い検出精度を維持し、かつ生成品質の劣化も小さいことが示された。特に、提案する「バイグラムパラフレーズ攻撃」に対してSEMSTAMPは頑健であるのに対し、トークンレベルのウォーターマークは大きな精度低下を被ることが明らかになった。
Statystyki
生成文の品質(perplexity)はベースラインと同等である。
生成文の多様性(trigram entropy)はベースラインと同等である。
生成文の意味的多様性(Sem-Ent)はベースラインと同等である。
Cytaty
"パラフレーズは表層形式のトークンを変更するが、文レベルの意味は変わらない。したがって、我々のアプローチは語彙空間ではなく、文埋め込みの意味空間でウォーターマークを行う。"
"提案するバイグラムパラフレーズ攻撃は、トークンレベルのウォーターマークアルゴリズムを大きく弱体化させるが、SEMSTAMPにはわずかな影響しか及ぼさない。"