Core Concepts
モデルの境界特性を分析し、境界付近の最も変動の大きい領域にサンプルを配置することで、モデルの微小な変更を高感度に検出できる。また、二段階のサンプル生成プロセスを用いて、モデル境界を挟むようにサンプルペアを生成することで、検出感度をさらに高めている。
Abstract
本論文では、深層学習モデルの完全性を保護するための脆弱なモデルウォーターマーキング手法を提案している。
まず、ユーザ固有の鍵を用いて、元のモデルに追加の2値分類層を付加することで、ユーザ間での敏感サンプルの共有を防ぐ。
次に、出力ロジットの分散を最大化しつつ平均値を最小化する損失関数を用いて、モデル境界付近の最も変動の大きい領域にサンプルを配置する。
さらに、2段階のサンプル生成プロセスを用いて、モデル境界を挟むようにサンプルペアを生成する。
これにより、モデルに対する微小な変更に対して高感度に反応するサンプルを効率的に生成できる。
実験の結果、提案手法は既存手法と比べて、バックドア埋め込み、微小な微調整、プルーニング、量子化などのモデル変更に対して高い検出率を示した。また、サンプル生成の効率性も優れていることが確認された。
Stats
モデルの微調整時の検出成功率(%)は以下の通り:
Cifar10:
学習率1e-9時 77.56%
学習率1e-8時 99.56%
GTSRB:
学習率1e-8時 51.43%
学習率1e-7時 88.42%
Flowers102:
学習率1e-9時 74.01%
学習率1e-8時 91.82%