Core Concepts
大規模言語モデルにおけるテキスト透かし技術の提案とその効果的な実装について
Abstract
最近、大規模言語モデル(LLMs)によって生成されたテキストに関する潜在的なリスクが増加しています。この研究では、公開検出時の透かし生成方法を保護するための新しいアプローチであるUPVアルゴリズムを提案します。UPVは、水印生成と検出に異なるニューラルネットワークを使用し、トークン埋め込みパラメータを共有しています。これにより、高い検出精度と計算効率が達成されます。実験では、我々のアルゴリズムが高い検出精度と計算効率を示すことが確認されました。
Stats
我々のアルゴリズムは99%のF1スコアを達成した。
水印生成および検出ネットワークの計算負荷は非常に低い。
攻撃戦略は成功率が非常に低く、水印解読が困難であることを示しています。
Quotes
"我々のアルゴリズムは公開検出時の水印生成方法を保護するために設計されています。"
"ニューラルネットワークを使用した水印検出手法は、直接zスコア計算と同等のF1スコアを達成します。"