本稿では、ディープラーニングモデルに対するバックドア攻撃対策として、毒サンプル検出(PSD)の性能向上に取り組んでいます。特に、攻撃の影響が弱く、従来のPSDでは検出が困難なケースにおいても、シャープネス認識最小化(SAM)を用いた学習により、攻撃の影響を増幅させることで、検出精度を大幅に向上させる手法を提案しています。
本稿では、ディープラーニングモデルに対するバックドア攻撃を緩和するための、学習済みモデルの重みを初期値から意図的に遠ざける新しい微調整手法「距離駆動型デトックス(D3)」を提案する。
深層回帰モデルは、従来の分類モデル向けに設計された防御策が効果を示さない独自の特性を持つため、効果的なバックドア攻撃対策が不可欠である。
連合学習におけるバックドア攻撃を検出するために、ローカルモデルのアンラーニング挙動の違いを利用した新しい手法「MASA」を提案する。
本稿では、自己教師あり学習(SSL)モデルにおけるバックドア攻撃に対抗するため、PoisonCAMと呼ばれる新しい防御手法を提案する。PoisonCAMは、汚染されたデータセットから有害なサンプルを正確に検出して削除し、安全なSSLトレーニングを実現する。
本稿では、大規模言語モデル(LLM)に対するバックドア攻撃を効果的に防御するため、知識蒸留を用いた新しい学習解除アルゴリズム「W2SDefense」を提案する。
複数の単一タスクモデルを統合するマルチタスクモデルマージにおいて、既存の手法はタスク間の干渉の解決に重点を置いており、セキュリティ上の脅威、特にバックドア攻撃のリスクを軽視している。本稿では、安全性を考慮した新規手法「防御重視マージ(DAM)」を提案し、タスク干渉の軽減とバックドアの脆弱性緩和の同時実現を目指す。
本稿では、機械学習モデルに対するバックドア攻撃を無効化するために、防御的なバックドアをモデルに事前に注入する新しい防御手法「PDB」を提案する。
低い攻撃成功率(ASR)を達成したバックドア防御は、一見安全に見えますが、実際には潜在的なバックドア機能がモデルに残存しており、再活性化される可能性があります。真のバックドア安全性を実現するには、表面的な指標だけに頼るのではなく、モデルの堅牢性を包括的に評価することが不可欠です。
論文は、バックドア攻撃に対する効果的で効率的な推論段階の防御方法を提案し、他の高度な基準よりも攻撃成功率の平均75%削減を実現します。