本論文では、ニューラルネットワークモデルのパラメータを抽出する問題について取り組んでいる。従来の研究では、ニューラルネットワークの生の出力(raw output)にアクセスできることを前提としていたが、生の出力にアクセスできない「ハードラベル設定」下での機能的に等価な抽出は未解決の問題であった。
本論文では、ReLUニューラルネットワークに対して、ハードラベル設定下で理論的に機能的に等価な抽出を達成する初めての攻撃手法を提案する。提案手法では、「モデルアクティベーションパターン」と「モデルシグネチャ」という新しい概念を導入し、決定境界点を利用することで、効率的にモデルパラメータを抽出できることを示している。
実験では、MNISTやCIFAR10などの実際のベンチマークデータセットを用いて訓練されたニューラルネットワークに対しても、提案手法の有効性を確認している。パラメータ数が10^5程度のニューラルネットワークに対しても、単一コアで数時間以内に抽出が可能であることを示している。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы