Główne pojęcia
訓練画像を毒入りラベルで攻撃するクリーンイメージバックドア攻撃は、モデルの公平性と堅牢性を脅かす。
Streszczenie
画像分類モデルの訓練データにおける誤ったラベルを利用した新しいバックドア攻撃手法が提案された。
バックドアはトリガー特徴量によって訓練画像を2つのグループに分割し、一部のラベルを改ざんして埋め込まれる。
実験結果から、この攻撃は効果的であり、潜在的な脆弱性があることが示された。
Introduction
複数の企業が未ラベル化データをラベリングするために第三者プロバイダーを利用している。
クリーンイメージバックドア攻撃は、トレーニング画像を毒入りラベルで改ざんする新しい手法である。
Clean-image Backdoor Attacks
バックドアはトリガー特徴量によって訓練画像を分類し、一部のラベルを改ざんして埋め込まれる。
実験結果から、この攻撃は効果的であり、潜在的な脆弱性があることが示された。
Related Work
バックドア攻撃は深層ニューラルネットワークの脆弱性を露呈する能力により注目されている。
可視バックドア攻撃や不可視バックドア攻撃などさまざまな種類が研究されてきた。
Cytaty
"To explore potential security threats posed by outsourced labels, in this paper we propose clean-image backdoor attacks."
"Our attacks seriously jeopardize the fairness and robustness of image classification models."