大規模言語モデル(LLM)のウォーターマーキングはAI生成コンテンツの検出を可能にし、現在のスキームは攻撃者によって簡単にスポフィングやスクラビングされる可能性がある。これらの攻撃は以前考えられていたよりも容易であり、現行のウォーターマークスキームが脆弱であることを示唆しています。KGW2-SELFHASHなどの主要な分布変更型ウォーターマークも、実際の設定で信頼性の高いスプーフィングやスクラビング攻撃を受ける可能性があります。これらの結果は、現在のウォーターマークスキームが以前よりも脆弱であることを明確に示し、より堅牢なスキームと詳細な評価手法が必要であることを強調しています。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Niko... : arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.19361.pdfDaha Derin Sorular