本研究では、深層学習モデルの予測と特徴量帰属の感度分析を組み合わせた新しい敵対的サンプル検出手法「PASA」を提案している。
まず、深層学習モデルの予測と特徴量帰属は、ノイズを加えることで敵対的サンプルと正常サンプルで明確に異なる挙動を示すことを観察した。正常サンプルはノイズに対して頑健であるのに対し、敵対的サンプルはノイズにより大きな変化を受ける。
そこで、PASA ではノイズを加えた入力に対する予測と特徴量帰属の変化を測定し、正常サンプルとの差異に基づいて敵対的サンプルを検出する。具体的には、ノイズ付き入力に対する予測の変化量(prediction sensitivity)と特徴量帰属の変化量(attribution sensitivity)を計算し、これらの値が事前に正常サンプルから学習した閾値を超えた場合に、その入力を敵対的サンプルと判断する。
PASA は教師なし手法であり、正常サンプルのみを使って検出器を学習できる。実験では、MNIST、CIFAR-10、CIFAR-100、ImageNet、CIC-IDS2017の各データセットと、MLP、LeNet、VGG-16、ResNet、MobileNetの各モデルを用いて評価を行った。その結果、PASA は既存の教師なし敵対的サンプル検出手法と比べて、CIFAR-10では14%、ImageNetでは35%高いROC-AUC スコアを達成した。さらに、攻撃者が検出手法を認知した場合でも、PASA は競争力のある性能を示した。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Dipkamal Bhu... kl. arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.10789.pdfDybere Forespørgsler