核心概念
パラフレーズに強いセマンティクスベースの防水マークを提案し、大規模言語モデルの不正利用を防ぐ。
摘要
本論文は、大規模言語モデル(LLM)の不正利用を防ぐための防水マーク手法を提案している。従来の防水マーク手法は、トークンのハッシュを用いて語彙を分割するが、これはパラフレーズによって容易に破られてしまう。そこで本手法では、トークンのセマンティクスを用いて語彙を分割することで、パラフレーズに対する頑健性を高めている。
具体的には以下の2つのステップを経て、セマンティクスに基づく防水マークを実現している:
- 重み付き平均プーリングによって、前m個のトークンのセマンティクスを集約する。これにより、パラフレーズに対するロバスト性を高める。
- 2次元の正規化埋め込み環(NE-Ring)を用いて、高次元の埋め込みを離散化する。これにより、微小な変化に対してもセマンティクスが同じ離散値に留まる可能性が高くなり、語彙分割の安定性が向上する。
さらに、対比学習を用いてNE-Ringの分布を均一化し、防水マークの隠蔽性を高めている。また、オフセット検出を導入することで、離散値の境界付近の脆弱性に対するロバスト性も向上させている。
実験の結果、提案手法は従来手法に比べて、パラフレーズに対してより高い検出精度を示すことが確認された。一方で、生成テキストの品質にはほとんど影響を与えないことも示された。
统计
大規模言語モデルを不正に使用することで、誤情報の拡散や消費者の誤認を引き起こすことができる。
従来の防水マーク手法は、トークンのハッシュを用いているため、パラフレーズによって容易に破られてしまう。
提案手法では、トークンのセマンティクスを用いることで、パラフレーズに対するロバスト性を高めている。
引用
"パラフレーズは、トークンの順序や選択を変更しながら、テキストの一般的な意味を保持することで、悪意のある目的を達成することができる。"
"パラフレーズによって、トークンのハッシュが変化し、緑リストとの一致が乱されるため、防水マークの検出効果が大幅に低下する。"