Core Concepts
毒された学習モデルを利用して、毒された学習データから清浄なモデルを学習する新しい手法を提案する。
Abstract
本論文は、毒された学習データから清浄なモデルを学習する新しい手法を提案している。
まず、予測エントロピーを用いて、毒された学習サンプルと清浄な学習サンプルを区別する。この観察に基づき、2つのネットワークを用いる手法「The Victim and The Beneficiary (V&B)」を提案する。
Victimネットワークは、疑わしいサンプルのみを学習して、強力な毒検出器として機能する。Beneficiaryネットワークは、Victimネットワークによって選別された信頼できるサンプルを用いて学習し、バックドアの注入を抑制する。
さらに、半教師あり学習を用いて、Beneficiaryネットワークのパフォーマンスを向上させ、潜在的なバックドアを削除する。また、見逃された毒サンプルの影響を抑えるため、注意マップに基づく強力な data augmentation 手法「AttentionMix」を提案する。
広範な実験により、提案手法が様々な種類のバックドア攻撃に対して効果的であり、清浄なサンプルに対するモデルの精度も維持できることを示している。
Stats
毒サンプルと清浄サンプルの平均予測エントロピーの差が大きい
提案手法は、CIFAR-10データセットで、6つの最新のバックドア攻撃に対して、ベンチマーク精度を維持しつつ、攻撃成功率を1%以下に抑えることができる
提案手法は、ImageNetサブセットデータセットでも、ベンチマーク精度を上回りつつ、攻撃成功率を低減できる
Quotes
"Recently, backdoor attacks have posed a serious security threat to the training process of deep neural networks (DNNs)."
"We find that the poisoned samples and benign samples can be distinguished with prediction entropy."
"Our AttentionMix takes into account the importance of the region in both images and blends the influential region with the same area in another image, which can destroy the completeness of triggers."