論文は、バックドア攻撃に対する効果的で効率的な推論段階の防御方法を提案し、他の高度な基準よりも攻撃成功率の平均75%削減を実現します。
低い攻撃成功率(ASR)を達成したバックドア防御は、一見安全に見えますが、実際には潜在的なバックドア機能がモデルに残存しており、再活性化される可能性があります。真のバックドア安全性を実現するには、表面的な指標だけに頼るのではなく、モデルの堅牢性を包括的に評価することが不可欠です。
本稿では、機械学習モデルに対するバックドア攻撃を無効化するために、防御的なバックドアをモデルに事前に注入する新しい防御手法「PDB」を提案する。