本論文では、大規模言語モデル(LLM)から生成されたテキストを検出するための新しい意味的ウォーターマークアルゴリズムSEMSTAMPを提案している。従来のトークンレベルのウォーターマークアルゴリズムはパラフレーズ攻撃に弱いが、SEMSTAMPは以下の特徴を持つ:
実験の結果、SEMSTAMPはさまざまなパラフレーザに対して高い検出精度を維持し、かつ生成品質の劣化も小さいことが示された。特に、提案する「バイグラムパラフレーズ攻撃」に対してSEMSTAMPは頑健であるのに対し、トークンレベルのウォーターマークは大きな精度低下を被ることが明らかになった。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Abe Bohan Ho... о arxiv.org 04-23-2024
https://arxiv.org/pdf/2310.03991.pdfГлибші Запити