Core Concepts
大規模言語モデルの知的財産を保護するために、モデル抽出攻撃を追跡できる学習可能な言語的ウォーターマークを提案する。
Abstract
本研究では、大規模言語モデル(LLM)の知的財産を保護するための新しい手法を提案している。現在の水印技術は主に発生した文章の後処理や出力ロジットへの信号挿入に依存しており、ヒューリスティックなアプローチに留まっている。
提案手法では、LLMの出力分布に制御されたノイズを導入することで、統計的に識別可能な水印を埋め込む。具体的には以下の手順を踏む:
学習データセットの単語頻度分布を計算し、ガウシアンノイズを加える。
修正された頻度分布に基づいて、LLMの出力分布を変更する。
情報理論、特にKL divergenceを用いて、修正された分布と元の分布を効果的に区別する。
提案手法は、ロバスト性と出力品質のバランスを取りながら、低い偽陽性/偽陰性率を維持し、LLMの本来の性能を保持する。また、抽出モデルによって生成されたテキストにも水印を検出できる学習可能な特性を持つ。
Stats
学習データセットの単語頻度分布FD(wi)を計算する(式1、2)
頻度分布にガウシアンノイズを加えて修正分布 ̂FD(wi)を作成する(式3)
LLMの出力分布PLMを修正分布 ̂PLMに変更する(式4、5)
Quotes
"現在の水印技術は主に発生した文章の後処理や出力ロジットへの信号挿入に依存しており、ヒューリスティックなアプローチに留まっている。"
"提案手法は、ロバスト性と出力品質のバランスを取りながら、低い偽陽性/偽陰性率を維持し、LLMの本来の性能を保持する。"