本論文は、深層学習モデルに対する裏口攻撃に対する新しい軽量な防御メカニズムPAD-FTを提案している。
まず、対象のデータセットから最もクリーンなデータを選択するためのデータ浄化プロセスを導入する。対称クロスエントロピー損失関数を使って、訓練データから最も信頼できる清浄なデータを自動的に選別する。
次に、選別したクリーンデータを使って、モデルの活性化値に上限を設定するクリッピング処理を行う。これにより、裏口攻撃によって引き起こされる異常な活性化値を正常な範囲に抑えることができる。
最後に、クリッピングを適用した上で、分類器のみをファインチューニングする。これにより、モデル全体を再訓練する必要がなく、計算コストを大幅に削減できる。
提案手法PAD-FTは、追加のクリーンデータセットを必要とせず、モデルの一部のみをファインチューニングするため、実用的で軽量な防御メカニズムとなっている。実験結果から、PAD-FTが様々な裏口攻撃手法に対して高い防御性能を発揮することが示された。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies