Core Concepts
本研究では、限定的なデータを用いて深層学習モデルの敵対的攻撃に対する修復を行う新しい手法ADVREPAIR を提案する。ADVREPAIRは、パッチモジュールを統合することで、局所的な堅牢性を保証しつつ、一般的な入力に対する堅牢性も向上させることができる。
Abstract
本論文は、深層学習モデルの敵対的攻撃に対する修復手法ADVREPAIRを提案している。
主な内容は以下の通り:
敵対的攻撃に対する修復を行う際の課題:
既存の手法では、限定的なデータでは効果が限定的
敵対的攻撃は複雑で、ニューロンレベルの修正では一般化が難しい
敵対的訓練は堅牢性の保証が難しい
ADVREPAIRの提案:
パッチモジュールを統合することで、局所的な堅牢性を保証
形式的検証手法を用いて、パッチモジュールの訓練を行う
ヒューリスティックな割り当て機能を用いて、一般的な入力に対する堅牢性を向上
実験評価:
MNIST、CIFAR-10、ACAS Xuデータセットで評価
既存手法と比較して、修復成功率、一般化性能、スケーラビリティが優れている
限定的なデータでも高い修復性能を発揮
本手法は、限定的なデータでも深層学習モデルの敵対的攻撃に対する堅牢性を向上させることができる重要な成果である。
Stats
修復成功率が100%に達する。
修復後のモデルの精度低下は最大で30%程度に抑えられる。