本論文では、大規模言語モデル(LLM)から生成されたテキストを検出するための新しい意味的ウォーターマークアルゴリズムSEMSTAMPを提案している。従来のトークンレベルのウォーターマークアルゴリズムはパラフレーズ攻撃に弱いが、SEMSTAMPは以下の特徴を持つ:
実験の結果、SEMSTAMPはさまざまなパラフレーザに対して高い検出精度を維持し、かつ生成品質の劣化も小さいことが示された。特に、提案する「バイグラムパラフレーズ攻撃」に対してSEMSTAMPは頑健であるのに対し、トークンレベルのウォーターマークは大きな精度低下を被ることが明らかになった。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Abe Bohan Ho... alle arxiv.org 04-23-2024
https://arxiv.org/pdf/2310.03991.pdfDomande più approfondite